莫烦PYTHON
学习 ▾
推荐学习顺序
Python基础 ▾
交互式学Python
多进程 multiprocessing
多线程 threading
窗口视窗 Tkinter
机器学习 ▾
有趣的机器学习
强化学习 Reinforcement Learning
进化算法 Evolutionary Algorithm
神经网络 ▾
Tensorflow
PyTorch
Theano
Keras
通用机器学习 Scikit-learn
自然语言处理
生成对抗网络
机器学习实战
数据处理 ▾
Numpy 数据怪兽
Pandas 数据伙伴
画图 Matplotlib
网页爬虫
提效工具 ▾
Git 版本管理
Linux 简易教学
MiniPy 小程序
Rethink
大家说
MiniPy
About
登录
莫烦开发的 AI 知识管理工具 Rethink.run 正式上线啦!
【浏览器跑Python】交互式Python学习
强化学习 (Reinforcement Learning)
简介
1.1 什么是强化学习
1.2 强化学习方法汇总
1.3 为什么用强化学习 Why?
1.4 课程要求
Q-learning
2.1 什么是 Q Leaning
2.2 小例子
2.3 Q-learning 算法更新
2.4 Q-learning 思维决策
Sarsa
3.1 什么是 Sarsa
3.2 Sarsa 算法更新
3.3 Sarsa 思维决策
3.4 什么是 Sarsa(lambda)
3.5 Sarsa-lambda
Deep Q Network
4.1 什么是 DQN
4.2 DQN 算法更新
4.3 DQN 神经网络
4.4 DQN 思维决策
4.5 OpenAI gym 环境库
4.6 Double DQN
4.7 Prioritized Experience Replay (DQN)
4.8 Dueling DQN
Policy Gradient
5.1 什么是 Policy Gradients
5.2 Policy Gradients 算法更新
5.3 Policy Gradients 思维决策
Actor Critic
6.1 什么是 Actor Critic
6.2 Actor Critic
6.3 什么是 DDPG
6.4 Deep Deterministic Policy Gradient (DDPG)
6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
6.6 Asynchronous Advantage Actor-Critic (A3C)
6.7 Distributed Proximal Policy Optimization (DPPO)