当前位置:网站首页 > 技术博客 > 正文

dqn详解



pytorch

-

DQN DQN

Pytorch

实现

DQN

最初的Q学习使用表格方法(有关更多详细信息和实现,请参见 )来解决,但是,表格Q学习的问题在状态增长时出现因为table不足以存储环境中给定的数亿个状态。 例如,环境为210x180黑白像素的游戏。 将有$ 2 ^ {180 * 210} $个可能的状态,对于一个表来说,这太多了。

DeepMind通过深度神经网络以

DQN

形式将

DQN

形式的深度学习和Q学习相结合,以近似值,首先在游戏中击败人类。 简而言之,

DQN

用深度神经网络(CNN或DNN)替换了表格,并使用目标网络来执行Bellman方程更新。 为了实现它,使用了一些技巧,例如目标网络和体验重播。 引入目标网络以收敛

模型

,因为频繁更新会使

模型

处于不稳定状态。 体验重播使用缓冲区存储所有过去(状态,动作,next_state)对,并通过对过去的体验进行采样来训练

模型

,这有

  • 上一篇: 一句话木马图片
  • 下一篇: c语言if0endif
  • 版权声明


    相关文章:

  • 一句话木马图片2024-12-01 13:30:00
  • swing实现画图2024-12-01 13:30:00
  • 二叉树的遍历算法2024-12-01 13:30:00
  • 中国电信武汉dns2024-12-01 13:30:00
  • 驼峰命名的规则2024-12-01 13:30:00
  • c语言if0endif2024-12-01 13:30:00
  • 基于java的网络爬虫2024-12-01 13:30:00
  • 公共dns是什么2024-12-01 13:30:00
  • java设置请求头2024-12-01 13:30:00
  • linux ntp同步命令2024-12-01 13:30:00