月之暗面Kimi K2 Thinking引热议！杨植麟谈训练成本、K3发布与AGI未来

科技前沿 • 2026-04-07 11:11 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 AI领域再掀波澜，月之暗面公司推出的Kimi K2 Thinking模型引发全球开发者热议。这款新锐模型在Humanity's Last Exam、TAU-Bench等权威测试中力压OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5，其API调用价格却不足竞争对手的四分之一。Hugging Face联合创始人Thomas Wolf在社交平台惊叹："这难道是中国AI界的又一次DeepSeek时刻？"
在模型发布后48小时内，北京时间凌晨时分，月之暗面三位创始人杨植麟、周昕宇、吴育昕首次集体亮相Reddit问答社区，与海外开发者展开长达数小时的深度对话。这场跨越时区的交流涉及技术路径、商业模式、AGI发展等数十个核心议题，其中训练成本问题最受关注。
针对外界盛传的"460万美元训练成本"说法，杨植麟明确否认："研究实验成本难以精确量化，这个数字并不准确。"他透露团队采用1万亿参数混合专家架构，通过原生INT4量化技术将推理速度提升两倍，配合H800 GPU集群的极致优化，在硬件条件不占优势的情况下实现了成本控制突破。目前模型输入成本为每百万token 1-4元，输出成本16元，性价比优势显著。
面对开发者关于模型"过于冗长"的质疑，技术团队给出了独特的技术哲学。杨植麟解释称当前版本优先保障复杂任务处理能力，后续将通过奖励机制优化token效率。这种设计使模型能连续调用200-300次工具完成复杂推理，在"思考-工具"交替模式中保持稳定性。联合创始人吴育昕补充道，实现这种交错调用模式是开发过程中最具挑战的技术突破。
在多模态发展路径上，团队选择先聚焦文本模型。杨植麟表示视觉语言模型的训练需要更多数据积累和参数调整，未来将逐步完善多模态能力。对于备受关注的K3发布时间，他以幽默方式回应："在Sam的万亿级数据中心建成之前"，引发网友对行业巨头工程进度的调侃。
技术路线选择方面，月之暗面展现出鲜明特色。针对DeepSeek采用的OCR方案，周昕宇认为特征空间优化更具通用性。团队正在研发的KDA实验架构采用3:1混合比例，通过"抓取关键信息"的方式优化性能、速度和显存占用。内部测试的Kimi Linear新结构（基于KDA注意力模块）已显示出良好前景，可与稀疏化技术形成协同效应。
当被问及是否会推出更大规模闭源模型时，杨植麟的回答暗含深意："如果变得太危险的话"。这种兼顾技术发展与安全控制的表述，为未来商业化策略留下想象空间。目前该模型在Hugging Face平台下载量已突破5万次，成为最受欢迎的开源模型之一，其技术路线选择和商业模式创新正在重塑AI行业竞争格局。

月之暗面Kimi K2 Thinking引热议！杨植麟谈训练成本、K3发布与AGI未来

相关推荐