在2026年英伟达GTC大会上,月之暗面Kimi创始人杨植麟指出,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。
杨植麟首次系统披露了Kimi模型的技术路线图,将其进化逻辑归纳为三个维度:Token效率、长上下文以及智能体集群。他认为当前的Scaling需要同时在计算效率、长程记忆和自动化协作上寻找规模效应。
在技术重构方面,Kimi团队针对传统Adam优化器开发了MuonClip优化器,解决了Logits爆炸问题并实现2倍于AdamW的计算效率。针对全注意力机制,团队提出了Kimi Linear混合线性注意力架构,在超长上下文中将解码速度提升5到6倍。
针对残差连接问题,Kimi引入Attention Residuals方案,通过Softmax注意力替代传统加法累加,解决了隐藏状态随深度增加而稀释深层贡献的问题。
在跨模态研究方面,杨植麟指出视觉强化学习能够显著反哺文本性能,经过视觉RL训练后模型在纯文本基准测试上表现提升约2.1%。
最后杨植麟探讨了智能体集群的扩展,Kimi K2.5引入Orchestrator机制,能够将复杂任务拆解给数十个子Agent并行处理,并设计了新的并行RL奖励函数来防止协作过程中的串行塌缩问题。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/244943.html