强化学习
- 一、强化学习简介
- 二、强化学习发展历程
- 三、深度强化学习DRL
- 四、马尔可夫决策过程
- 五、值函数
- 六、Q值
- 七、蒙特卡洛(MC)与时序差分(TD)
- 八、强化学习的代表算法
-
- 1.Q-learning算法
- 2.DQN(Deep Q Network)算法
- 九、求拟合Q值的大致过程
- 十、扩展与总结
强化学习(RL)——Reinforcement learning强化学习 一 强化学习简介 二 强化学习发展历程 三 深度强化学习 DRL 四 马尔可夫决策过程 五 值函数 六 Q 值 七 蒙特卡洛 MC 与时序差分 TD 八 强化学习的代表算法 1 Q learning 算法 2 DQN Deep Q Network 算法 九 求拟合 Q 值的大致过程 十
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/21930.html