月之暗面Kimi K2 Thinking引热议!杨植麟谈训练成本、K3发布与AGI未来

月之暗面Kimi K2 Thinking引热议!杨植麟谈训练成本、K3发布与AGI未来p AI 领域再掀波澜 月之暗面公司推出的 Kimi K2 Thinking 模型引发全球开发者热议 这款新锐模型在 Humanity s Last Exam TAU Bench 等权威测试中力压 OpenAI 的 GPT 5 和 Anthropic 的 Claude Sonnet 4 5 其 API 调用价格却不足竞争对手的四分之一 Hugging Face 联合创始人 Thomas Wolf 在社交平台惊叹 p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

AI领域再掀波澜,月之暗面公司推出的Kimi K2 Thinking模型引发全球开发者热议。这款新锐模型在Humanity's Last Exam、TAU-Bench等权威测试中力压OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,其API调用价格却不足竞争对手的四分之一。Hugging Face联合创始人Thomas Wolf在社交平台惊叹:"这难道是中国AI界的又一次DeepSeek时刻?"

在模型发布后48小时内,北京时间凌晨时分,月之暗面三位创始人杨植麟、周昕宇、吴育昕首次集体亮相Reddit问答社区,与海外开发者展开长达数小时的深度对话。这场跨越时区的交流涉及技术路径、商业模式、AGI发展等数十个核心议题,其中训练成本问题最受关注。

针对外界盛传的"460万美元训练成本"说法,杨植麟明确否认:"研究实验成本难以精确量化,这个数字并不准确。"他透露团队采用1万亿参数混合专家架构,通过原生INT4量化技术将推理速度提升两倍,配合H800 GPU集群的极致优化,在硬件条件不占优势的情况下实现了成本控制突破。目前模型输入成本为每百万token 1-4元,输出成本16元,性价比优势显著。

面对开发者关于模型"过于冗长"的质疑,技术团队给出了独特的技术哲学。杨植麟解释称当前版本优先保障复杂任务处理能力,后续将通过奖励机制优化token效率。这种设计使模型能连续调用200-300次工具完成复杂推理,在"思考-工具"交替模式中保持稳定性。联合创始人吴育昕补充道,实现这种交错调用模式是开发过程中最具挑战的技术突破。

在多模态发展路径上,团队选择先聚焦文本模型。杨植麟表示视觉语言模型的训练需要更多数据积累和参数调整,未来将逐步完善多模态能力。对于备受关注的K3发布时间,他以幽默方式回应:"在Sam的万亿级数据中心建成之前",引发网友对行业巨头工程进度的调侃。

技术路线选择方面,月之暗面展现出鲜明特色。针对DeepSeek采用的OCR方案,周昕宇认为特征空间优化更具通用性。团队正在研发的KDA实验架构采用3:1混合比例,通过"抓取关键信息"的方式优化性能、速度和显存占用。内部测试的Kimi Linear新结构(基于KDA注意力模块)已显示出良好前景,可与稀疏化技术形成协同效应。

当被问及是否会推出更大规模闭源模型时,杨植麟的回答暗含深意:"如果变得太危险的话"。这种兼顾技术发展与安全控制的表述,为未来商业化策略留下想象空间。目前该模型在Hugging Face平台下载量已突破5万次,成为最受欢迎的开源模型之一,其技术路线选择和商业模式创新正在重塑AI行业竞争格局。

小讯
上一篇 2026-04-07 11:12
下一篇 2026-04-07 11:10

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/219314.html