2026年腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass

腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompassIT 之家 3 月 10 日消息 腾讯混元 3D 团队今日宣布开源业界首个面向世界模型的强化学习后训练框架 WorldCompass 这是此前发布的混元世界模型 1 5 官方强化学习扩展模块 能够让世界模型的交互更加准确 体验更好 WorldCompass 是一个专为长时序 交互式世界模型设计的强化学习 RL 后训练框架 如果说世界模型是引擎 那么 WorldCompass 就是 指南针

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



IT之家 3 月 10 日消息,腾讯混元 3D 团队今日宣布开源业界首个面向世界模型的强化学习后训练框架 WorldCompass,这是此前发布的混元世界模型 1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。

WorldCompass 是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。如果说世界模型是引擎,那么 WorldCompass 就是“指南针”,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性

实验表明,WorldCompass 能提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近 35%

团队在最新的开源 SOTA 模型 WorldPlay 上进行了验证。结果显示,经过 WorldCompass 的后训练,模型能力实现了大幅提升。

在最为困难的复合动作(Combined Action)场景下(例如同时进行移动和旋转):基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后,准确率提升至 55% 左右,提升幅度超过 35%。对于基础动作,准确率也提升了约 10%。

同时,在斯坦福大学世界模型 Benchmark WorldScore 上,WorldCompass 取得了更好的评分:

WorldCompass 已在混元 WorldPlay 模型上得到验证,相关代码和模型细节已开源。IT之家附开源地址如下:

 
小讯
上一篇 2026-03-30 09:52
下一篇 2026-03-30 09:50

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/230824.html