深度强化学习软件包总结–转载

深度强化学习软件包总结–转载

原文地址:https://zhuanlan.zhihu.com/p/24392239



我又来给大家发干货了,上个月给大家总结了深度强化学习的论文集,不知道小伙伴们看了多少了。不过,论文看多了也会很累,这时候撸一些代码就会觉得特别带劲(不知道大家有没这样的感觉)。所以为了方便大家选择适合自己的DRL代码包,今天我给大家总结了一些比较有名的DRL程序包。精力有限,不能搜集全部的软件包,欢迎大家及时补充

一. Lua 语言的程序包(运用框架:Torch 7

1. 相关论文:Human-level control through deep reinforcement learning

CODE链接(需翻墙) 另外的链接(不需要翻墙):kuz/DeepMind-Atari-Deep-Q-Learner

实现的算法名称:Deep Q-Networks(DQN)

推荐指数(★★★★★)

推荐理由:谷歌公司开源的第一个深度强化学习软件包,重要价值不用我多说了吧。

2. 软件包名称:ehrenbrav/DeepQNetwork

实现算法:DQN 应用场景:玩超级马里奥游戏 推荐指数(★★★)

相关论文:Human-Level Control through Deep Reinforcement Learning

3. 软件包名称:Kaixhin/Atari

实现算法: DQN, persistent advantage learning, dueling network, double DQN, A3C

推荐指数(★★★★)

4. 软件包名称:iassael/learning-to-communicate

实现算法:Reinforced Inter-Agent Learning (RIAL) and Differentiable Inter-Agent Learning (DIAL)

推荐指数(★★★) 

相关论文:[1605.06676] Learning to Communicate with Deep Multi-Agent Reinforcement Learning

5. 软件包名称:facebook/MazeBase

推荐指数(★★★) 推荐理由:Simple environment for creating very simple 2D games and training neural network models to perform tasks within them

相关论文:A Sandbox for Learning from Games

6. 软件包名称:eparisotto/ActorMimic

推荐指数(★★★) 实现算法:ActorMimic

相关论文:Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning

二. Python语言的DRL程序包:

基于TensorFlow:

1. 软件包名称:devsisters/DQN-tensorflow

实现算法:DQN

推荐指数(★★★)

相关论文:Human-Level Control through Deep Reinforcement Learning

2. 软件包名称:gliese581gg/DQN_tensorflow

实现算法:DQN

推荐指数(★★)

3. 软件包名称:nivwusquorum/tensorflow-deepq

实现算法:DQN

推荐指数(★★★★)

推荐理由:可以用Jupyter Notebook

4. 软件包名称: deep-rl-tensorflow

实现算法:DQN、DDQN、Dueling Network

相关论文:

[1] Playing Atari with Deep Reinforcement Learning

[2] Human-Level Control through Deep Reinforcement Learning

[3] Deep Reinforcement Learning with Double Q-learning

[4] Dueling Network Architectures for Deep Reinforcement Learning

推荐指数(★★★★★) 推荐理由:基于TensorFlow下的多种DRL算法实现,有很好的扩展价值。

5. 软件包名称:coreylynch/async-rl

实现算法:A3C 推荐指数(★★★★)

相关论文:Asynchronous Methods for Deep Reinforcement Learning”.

推荐理由:结合使用Tensorflow + Keras + OpenAI Gym

基于Keras:

1. 软件包名称:matthiasplappert/keras-rl

实现算法:

  • Deep Q Learning (DQN) [1][2]
  • Double DQN [3]
  • Deep Deterministic Policy Gradient (DDPG) [4]
  • Continuous DQN (CDQN or NAF) [6]
  • Cross-Entropy Method (CEM) [7][8]

相关论文在标注链接里面。

推荐指数(★★★★★)

推荐理由:基于keras的最好的一款DRL软件包,实现的算法较全(包括离散动作空间、连续动作空间)

基于Theano:

1. 软件包名称:spragunr/deep_q_rl

实现算法:DQN

推荐指数(★★★)

推荐理由:基于Theano框架

基于neon深度学习包:

1. 软件包名称:tambetm/simple_dqn

实现算法:DQN

相关论文:Human-Level Control through Deep Reinforcement Learning

推荐指数(★★)

其它的一些Python语言的DRL软件包:

1. 软件包名称:VinF/deer

主要实现算法:DQN,prioritized experience replay, double Q-learning, DDPG

推荐指数(★★★)

2. 软件包名称:muupan/async-rl

实现算法: A3C 推荐指数(★★)

相关论文:Asynchronous Methods for Deep Reinforcement Learning

3. 软件包名称:miyosuda/async_deep_reinforce

实现算法: A3C

推荐指数(★★)

相关论文:Asynchronous Methods for Deep Reinforcement Learning.

4. 软件包名称:openai/rllab

实现算法:

推荐指数(★★★★★)

推荐理由:OpenAI出品,必是精品。

5. 软件包名称:openai/gym

推荐指数(★★★★★)

推荐理由:OpenAI Gym is a toolkit for developing and comparing reinforcement learning algorithms.

6.软件包名称:openai/universe

推荐指数(★★★★★)

推荐理由:A software platform for measuring and training an AI’s general intelligence across the world’s supply of games, websites and other applications.(多么美好的未来啊)

7. 软件包名称:joschu/modular_rl

实现算法: TRPO,Proximal Policy Optimization,CEM

推荐指数(★★★)

8. 软件包名称:openai/vime

实现算法:Variational Information Maximizing Exploration (VIME)

推荐指数(★★)

相关论文:VIME: Variational Information Maximizing Exploration

C和C++的DRL程序包:

1. 相关论文:Human-level control through deep reinforcement learning

CODE链接 实现算法:DQN

推荐指数(★★★★)

推荐理由:首次基于Caffe深度学习框架尝试解决深度强化学习问题。

2. 软件包名称:Replicating-DeepMind

主要实现算法:DQN

推荐指数(★★)

3. 软件包名称:xbpeng/DeepTerrainRL

相关论文: Terrain-Adaptive Locomotion Skills Using Deep Reinforcement Learning

推荐指数(★★)

4.软件包名称:deepmind/lab

推荐指数(★★★★★)

推荐理由:A customisable 3D platform for agent-based AI research(用来对抗OpenAI的Universe?)

5. 软件包名称:junhyukoh/nips2015-action-conditional-video-prediction

推荐指数(★★)

相关论文:Action-Conditional Video Prediction using Deep Networks in Atari Games

6. 软件包名称:mhauskn/dqn

实现算法:DRQN (Recurrent DQN)

推荐指数(★★★)

相关论文:Deep Recurrent Q-Learning for Partially Observable MDPs

Javascript的DRL程序包:

1. 软件包名称:karpathy/reinforcejs

实现算法:

  • Dynamic Programming methods
  • (Tabular) Temporal Difference Learning (SARSA/Q-Learning)
  • Deep Q-Learning
  • Stochastic/Deterministic Policy Gradients and Actor Critic architectures for dealing with continuous action spaces. (very alpha, likely buggy or at the very least finicky and inconsistent)

推荐指数(★★★★)

推荐理由:单凭Javascript,我就觉得很牛逼了。

Java的DRL程序包:

1. 软件包名称:deeplearning4j/rl4j

实现算法: DQN,A3C

推荐指数(★★★★★)

推荐理由:Java语言,我的最爱。目前商用价值最高的语言。

另外一些好玩的DRL项目:

1. 软件包名称:yenchenlin/DeepLearningFlappyBird 和 songrotek/DRL-FlappyBird

实现算法:DQN

应用场景:玩愤怒的小鸟

推荐指数(★★★★)

2. 软件包名称:bitwise-ben/Snake

实现算法:DQN

应用场景:玩贪吃蛇

推荐指数(★★★)

3. 软件包名称:yanpanlau/DDPG-Keras-Torcs

实现算法:DDPG

基于的框架:keras

应用场景:TORCS赛车

相关论文:Deep Deterministic Policy Gradient

推荐指数(★★★★★) 推荐理由:男生应该都对车有兴趣吧

4. 软件包名称:Ardavans/DSR

实现算法:DSR

应用场景:Doom射击

推荐指数(★★★★)

相关论文:Deep Successor Reinforcement Learning (DSR)

发表评论

电子邮件地址不会被公开。 必填项已用*标注