pytorch-
DQN DQN的
Pytorch实现
DQN最初的Q学习使用表格方法(有关更多详细信息和实现,请参见 )来解决,但是,表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。 例如,环境为210x180黑白像素的游戏。 将有$ 2 ^ {180 * 210} $个可能的状态,对于一个表来说,这太多了。
DeepMind通过深度神经网络以
DQN形式将
DQN形式的深度学习和Q学习相结合,以近似值,首先在游戏中击败人类。 简而言之,
DQN用深度神经网络(CNN或DNN)替换了表格,并使用目标网络来执行Bellman方程更新。 为了实现它,使用了一些技巧,例如目标网络和体验重播。 引入目标网络以收敛
模型,因为频繁更新会使
模型处于不稳定状态。 体验重播使用缓冲区存储所有过去(状态,动作,next_state)对,并通过对过去的体验进行采样来训练
模型,这有
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/1172.html