Double DQN
学习资料:
要点¶
本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Double DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从 这个视频 和 这个Python教程 开始学习.
接下来我们说说为什么会有 Double DQN 这种算法. 所以我们从 Double DQN 相对于 Natural DQN (传统 DQN) 的优势说起.
一句话概括, DQN 基于 Q-learning, Q-Learning 中有 Qmax
, Qmax
会导致 Q现实
当中的过估计 (overestimate). 而 Double DQN 就是用来解决过估计的. 在实际问题中, 如果你输出你的 DQN 的 Q 值, 可能就会发现, Q 值都超级大. 这就是出现了 overestimate.
这次的 Double DQN 的算法基于的是 OpenAI Gym 中的 Pendulum
环境. 如果还不了解如何使用 OpenAI 的话, 这里有我的一个教程. 以下就是这次的结果, 先睹为快.
Double DQN 算法¶
我们知道 DQN 的神经网络部分可以看成一个 最新的神经网络
+ 老神经网络
, 他们有相同的结构, 但内部的参数更新却有时差. 而它的 Q现实
部分是这样的:
因为我们的神经网络预测 Qmax
本来就有误差, 每次也向着最大误差的 Q现实
改进神经网络, 就是因为这个 Qmax
导致了 overestimate. 所以 Double DQN 的想法就是引入另一个神经网络来打消一些最大误差的影响. 而 DQN 中本来就有两个神经网络, 我们何不利用一下这个地理优势呢. 所以, 我们用 Q估计
的神经网络估计 Q现实
中 Qmax(s', a')
的最大动作值. 然后用这个被 Q估计
估计出来的动作来选择 Q现实
中的 Q(s')
. 总结一下:
有两个神经网络: Q_eval
(Q估计中的), Q_next
(Q现实中的).
原本的 Q_next = max(Q_next(s', a_all))
.
Double DQN 中的 Q_next = Q_next(s', argmax(Q_eval(s', a_all)))
. 也可以表达成下面那样.
更新方法¶
好了, 有了理论, 我们就来用 Python 实现它吧.
这里的代码都是基于之前 DQN 教程中的代码 (github), 在 RL_brain
中, 我们将 class 的名字改成 DoubleDQN
, 为了对比 Natural DQN, 我们也保留原来大部分的 DQN 的代码. 我们在 __init__
中加一个 double_q
参数来表示使用的是 Natural DQN 还是 Double DQN. 为了对比的需要, 我们的 tf.Session()
也单独传入. 并移除原本在 DQN 代码中的这一句:
self.sess.run(tf.global_variables_initializer())
接着我们来修改 learn()
中的代码. 我们对比 Double DQN 和 Natural DQN 在 tensorboard 中的图, 发现他们的结构并没有不同, 但是在计算 q_target
的时候, 方法是不同的.
记录 Q 值¶
为了记录下我们选择动作时的 Q 值, 接下来我们就修改 choose_action()
功能, 让它记录下每次选择的 Q 值.
对比结果¶
接着我们就来对比 Natural DQN 和 Double DQN 带来的不同结果啦. 代码在这
所以这个出来的图是这样:
可以看出, Natural DQN 学得差不多后, 在立起来时, 大部分时间都是 估计的 Q值 要大于0, 这时就出现了 overestimate, 而 Double DQN 的 Q值 就消除了一些 overestimate, 将估计值保持在 0 左右.