#月之暗面创始人谈KimiK3规划#【#中国开源三巨头共话AGI#】1月10日,@智谱 创始人@唐杰THU 、@月之暗面Kimi 创始人杨植麟、@千问Qwen 技术负责人林俊旸、腾讯AI首席科学家姚顺雨等专拣学者齐聚北京,共话大模型发展的未来。
其中,@月之暗面Kimi 创始人杨植麟在清华大学北京重点实验室发起的高峰论坛中发表了主题为《Kimi K2 的 Scaling 实践》的技术分析。
杨植麟从Scaling Law之所以成为模型架构主流的原理出发,分享了Kimi K2模型之所以从Token Efficiency和Long Context两方面提升模型训练效率的思路。
他透露,下一步Kimi K3将在基础架构层面持续优化,包括Kimi linear 架构与 Kimi Delta Attention ——通过线性注意力机制,改进循环记忆管理,并显著提升硬件效率。

发布于:北京

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221168.html