
大模型的后训练对齐正经历一场从依赖人类偏好反馈到可验证奖励强化学习的转变。
4月7日,阿里巴巴通义实验室智能计算团队发布了新算法(Future-KL Influenced Policy Optimization),试图解决纯强化学习训练中一个长期存在的痛点,即模型在尝试延长推理过程时往往会陷入长度停滞。
在AI行业普遍将强化学习视为释放模型推理潜力的关键手段之际,这种尝试究竟能带来多大突破,值得审视。
当前主流的对齐算法如普遍采用基于结果的奖励机制,将全局奖励平均分配给推理轨迹中的每一个Token。这种做法导致模型难以区分关键逻辑决策点与普通填充性内容,信用分配过于粗放。
通义团队认为这设定了性能上限。FIPO的核心改动在于引入,即通过计算折扣的未来KL散度来量化每个Token对后续推理轨迹的影响,从而构建稠密优势表述,实现对关键Token的差异化奖励分配。
这种思路实质上是在GRPO框架内引入了类似PPO中的细粒度优势估计,但避开了后者需要维护Critic模型的额外开销。
从实验结果看,在Qwen2.5-32B-Base模型上,FIPO将平均思维链长度从约4000个Token扩展到超过10000个Token,在数学测试中从50.0%提升至峰值58.0%。
团队宣称这是首个在32B参数规模纯强化学习设置下性能超越o1-mini和同规模DeepSeek-Zero-MATH的开源方案。
不过FIPO的优势场景目前主要集中在数学推理这类结果可严格验证的任务上。
对于开放性问答、创意写作等难以定义明确正确答案的通用场景,其Future-KL机制能否同样有效,通义团队尚未给出充分论证。这恰好是PPO和DPO等经典方法在框架中更擅长处理的领域。
行业内的其他玩家也在沿着类似方向推进。腾讯混元团队近期开源了面向世界模型的强化学习后训练框架,侧重长时序交互场景中的指令遵循与视觉一致性。
字节跳动联合多所高校提出的则尝试解决奖励模型与生成模型之间的同步偏差问题。
可以说,大模型对齐领域的竞争焦点正从简单的模型参数规模比拼转向推理质量的精细化打磨。
通义团队在发布FIPO的同时,开源了相关论文、代码和模型,这在算法快速迭代的当下降低了技术复现的门槛。
但一个根本问题依然存在,在数学等封闭式任务上验证有效的方法,迁移到更开放、更接近真实人类交互的通用场景时,还能保持同样的效果吗?答案可能要等到更多第三方验证后才能揭晓。
[本文作者i黑马,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/252228.html