尽管DP也是最优控制理论的三大基石之一,但长久以来,动态规划法(Dynamic Programming)被认为只能在较少控制变量的多阶段决策问题中使用,维数灾难使他不可能搜索得了整个连续最优控制问题的高维状态空间,因此仍然只能在一些维数较低的离散决策变量最优选择中取得较好的效果。例如CSDN博客 - Meiko丶 动态规划详解。
近年来尤其是随着人工智能的发展,DP 被重新提上台面并甚至有颠覆经典控制理论之势,计算机等专业的跨界者也开始将其应用在机器人导航、动作规划、航空航天制导控制中。本博客大致列举动态规划法和Hamilton-Jacobi-Bellman方程推导过程的重要内容。
列个表格表示RL和最优控制中的符号差别:
| – | 状态 | 动作、控制 | 需要被极小化的函数 | 未来的cost-to-go、return function |
| RL | s s s | a a a | Q ( s , a ) Q(s,a) Q(s,a) | V ( s ) V(s) V(s) |
| OCP | x x x | u u u | H ( x , u ) H(x,u) H(x,u) | J ( x ) J(x) J(x) |
方便起见本文统一采用下面的表达。
文章目录
- Bellman最优性条件
- 离散形式的动态规划法
-
- cost-to-go function
- 最优反馈控制策略
- Bellman方程的求解
- 连续形式的HJB方程
-
- 从最优cost-to-go function到HJB方程
- HJB方程与Euler-Lagrange方程的联系
- 最优反馈控制律
- 其他
- Reference

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/46259.html