最优控制理论九、Bellman动态规划法用于最优控制

科技前沿 • 2025-02-06 11:46 • 阅读 52

最优控制理论九、Bellman动态规划法用于最优控制尽管 DP 也是最优控制理论的三大基石之一但长久以来动态规划法 Dynamic Programming 被认为只能在较少控制变量的多阶段决策问题中使用维数灾难使他不可能搜索得了整个连续最优控制问题的高维状态空间因此仍然只能在一些维数较低的离散决策变量最优选择中取得较好的效果例如 CSDN 博客 Meiko 丶动态规划详解

大家好，我是讯享网，很高兴认识大家。

尽管DP也是最优控制理论的三大基石之一，但长久以来，动态规划法(Dynamic Programming)被认为只能在较少控制变量的多阶段决策问题中使用，维数灾难使他不可能搜索得了整个连续最优控制问题的高维状态空间，因此仍然只能在一些维数较低的离散决策变量最优选择中取得较好的效果。例如CSDN博客 - Meiko丶动态规划详解。

近年来尤其是随着人工智能的发展，DP 被重新提上台面并甚至有颠覆经典控制理论之势，计算机等专业的跨界者也开始将其应用在机器人导航、动作规划、航空航天制导控制中。本博客大致列举动态规划法和Hamilton-Jacobi-Bellman方程推导过程的重要内容。

列个表格表示RL和最优控制中的符号差别：


–	状态	动作、控制	需要被极小化的函数	未来的cost-to-go、return function
RL	$s$	$a$	$Q (s, a)$	$V (s)$
OCP	$x$	$u$	$H (x, u)$	$J (x)$

方便起见本文统一采用下面的表达。

文章目录

Bellman最优性条件
离散形式的动态规划法
- cost-to-go function
- 最优反馈控制策略
- Bellman方程的求解
连续形式的HJB方程
- 从最优cost-to-go function到HJB方程
- HJB方程与Euler-Lagrange方程的联系
- 最优反馈控制律
其他
Reference

小讯

2025年Windows下的Powerlink主从站通信-（现场总线作业——NJIT）

上一篇 2025-02-24 14:04

2025年“四年一闰”的说法原来是错误的！

下一篇 2025-04-02 21:45

2025年Windows下的Powerlink主从站通信-（现场总线作业——NJIT） 1735998145
2025年真人配音软件有哪些？收藏这些就可以了 1735998145
2025年行业报告归档 2018.3.28 1735998143
2025年物理视角的复杂网络 1735998141
三险一金包括什么？三险和五险有什么区别？ 1735998141
2025年MDM 与 MAM 的区别 1735998140
2025年传统的振动信号故障诊断 1735998140
2025年HDR 成像技术学习（三）—— LOFIC 1735998139
一文搞懂信号量 1735998138
2025年“四年一闰”的说法原来是错误的！ 1735998146
2025年autocad软件提供的哪些功能可以提高设计效率-_要做专业照明设计，这2个软件技能必须掌握！... 1735998147
2025年微信小程序生态12-微信小程序开发设置中服务器域名和业务域名 1735998147
ts语音自建服务器,用轻量搭建自己的语音聊天服务器 1735998148
2025年读写锁原理解读 1735998150
Docker(二) 1735998150
2025年终于有人把智能语音处理讲明白了 1735998151
2025年需求分析BSA法 1735998152
2025年双碳+遥感丨遥感技术在生态系统碳储量、碳收支、碳循环以及人为源排放反演等领域的技术发展 1735998152

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/46259.html