2026年强化学习之多智能体（Multi-Agent）强化学习

科技前沿 • 2026-04-22 14:07 • 阅读 16

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

一个随机博弈可以看成是一个多智能体强化学习过程，在随机博弈中假定每个状态的奖励矩阵是已知的，不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数，再通过这些奖励值函数来学习得到最优纳什策略。

在多智能体强化学习算法中，两个主要的技术指标为合理性与收敛性。

合理性（rationality）是指在对手使用一个恒定策略的情况下，当前智能体能够学习并收敛到一个相对于对手策略的最优策略。

收敛性（convergence）是指在其他智能体也使用学习算法时，当前智能体能够学习并收敛到一个稳定的策略。通常情况下，收敛性针对系统中的所有的智能体使用相同的学习算法。

定义一个2*2的网格博弈，两个智能体分别表示为 P1 和 P2 ，1的初始位置在左下角，2的初始位置在右上角，每一个智能体都想以最快的方式达到G标志的地方。从初始位置开始，每个智能体都有两个动作可以选择。只要有一个智能体达到G则游戏结束，达到G的智能体获得奖励10，奖励折扣率为0.9。虚线表示栏杆，智能体穿过栏杆的概率为0.5。该随机博弈一共包含7个状态。这个博弈的纳什均衡策略是，每个智能体到达邻居位

2026年强化学习 之 多智能体（Multi-Agent）强化学习

相关推荐

2026年强化学习之多智能体（Multi-Agent）强化学习