2026年逆势而上的月之暗面:Kimi K2编程实测

逆势而上的月之暗面:Kimi K2编程实测上周五晚上 沉寂许久的国内大模型六小龙之一的月之暗面 Moonshot AI 发布并开源了 Kimi K2 模型 一时间 Kimi 又有了话题度 尤记得 年初 DeepSeek 爆火 Kimi 等纷纷暂停投流 舆论对其大有哂笑之意 半年过去 Kimi 依靠自身的强劲实力 强行拉回了自己在大模型中的地位 Kimi 官方发布显示 Kimi K2 是一款具备更强代码能力

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



上周五晚上,沉寂许久的国内大模型六小龙之一的月之暗面(Moonshot AI)发布并开源了Kimi K2模型。

一时间,Kimi又有了话题度。

尤记得,年初DeepSeek爆火,Kimi等纷纷暂停投流,舆论对其大有哂笑之意。半年过去,Kimi依靠自身的强劲实力,强行拉回了自己在大模型中的地位。

Kimi官方发布显示,Kimi K2是一款具备更强代码能力、更擅长通用Agent任务的MoE架构(DeepSeekV3架构)基础模型。

总参数量达到1T,激活参数32B。这意味着大模型参数单位开始由B迈向了T,往后的模型只会越来越大。感觉彻底断了开发人员本地化部署的念想。

官方透露K2的预训练阶段使用MuonClip优化器实现万亿参数模型的稳定高效训练,找到了新的Scaling空间。但K2的论文还未发布,这1T参数量的模型具体咋训练的,只能等后续论文发布了再看。

我这两天关注了X上的动态,老外们对K2评价都很高,被誉为开源模型又一大赢(这里也有赢学)。

既然K2是针对代码能力的模型,我初步测试了一些编程任务,仅供各位读者参考。

任务1:俄罗斯方块

提示词:

编写一个经典的俄罗斯方块游戏。

该有的都有,UI设计也非常美观,我还小玩了一会。

任务2:扫雷游戏

提示词:

编写一个经典的扫雷游戏。

K2完成度非常高,UI设计也是扫雷的经典配色。

作为对比,我感觉Claude 4 sonnet的页面就比K2差了一点。

任务3:天气卡片

提示词:

创建一个包含CSS和JavaScript的单一HTML文件,用于生成一个动画天气卡片。该卡片应通过不同的动画效果直观展示以下天气状况:风:(例如移动的云朵、摇曳的树木或风线)雨:(例如落下的雨滴、积水形成)太阳:(例如照射的光线、明亮的背景)雪:(例如落下的雪花、积雪)将所有天气卡片并排显示。卡片应采用深色背景。请将所有HTML、CSS和JavaScript代码包含在此单一文件中。JavaScript代码应包含切换不同天气状况的功能(例如函数或按钮集),以演示每种天气状况的动画效果。

这个是经典的天气卡片任务,当初Claude也是靠这个任务惊艳了不少人。

K2在这个任务上完成度和UI设计感觉比Claude都要差一点。

任务4:太阳系模拟运行

提示词:

编写一个模拟太阳系天体运行的可交互式网页。

自带了一点公转的残影轨迹,但整体上没啥大问题,基本可以用于小学生科普动画演示用了。

作为对比,Claude 4 Sonnet实现效果基本完美。

任务5:3D赛博空间

提示词:

创建一个3D赛博空间。

这个任务纯评各家大模型对于赛博朋克的理解了,K2和Claude做出来东西都比较抽象,但从视觉上看,Claude应该更赛博一点。

Claude 4 Sonnet:

任务6:烟花秀

提示词:

用p5.js实现一个绚丽的夜空烟花秀页面,页面可交互。

这个任务K2没能完成,修改了一轮之后也没有达到效果,没有时间细调,遂放弃尝试。

Claude 4 Sonnet效果虽然也不是很好,但基本实现了功能。

任务7:数据分析与可视化

提示词:

该数据集是2014-2015赛季科比部分比赛的投篮日志数据集。请根据该数据集,自行寻找分析角度,对其进行可视化数据分析。

这个任务数据集来自于kaggle,主要是分析一下科比在2014-15赛季部分比赛场次的投篮日志数据。

K2数据分析本身没啥问题,前端效果呈现上与Claude 4 Sonnet也差不多,都采用了湖人队的紫金配色。

Claude 4 Sonnet:

任务8:积分计算

这是编程任务之外的加试题,测一下K2在数学方面的能力。计算一道定积分,2024 MIT积分决赛压轴题:

看着就很复杂,我肯定不会算。

这一题K2和Claude 4 Sonnet都算错了,K2疯狂思考了七八分钟,但还是算错了。

Claude 4 Sonnet算得很快,但也算错了:

所以我又拿GPT-o3测了一下,GPT-o3算的又快又正确:

论数学推理,感觉还是GPT-o3更强大。

任务1和2是游戏编程,任务3-6是前端编程,任务7是数据分析与可视化,任务8是纯数学计算。虽然测试任务不多,但整体测下来,我感觉Kimi K2的代码能力应该介于Claude 3.7和Claude 4之间,数学推理能力则要明显弱于GPT-o3。

Kimi K2有这个实测效果,感觉很不容易。特别是在年后DeepSeek崛起,六小龙模式岌岌可危的环境下,Kimi能逆势而上,仍然在基座模型上持续发力,颇有一种强势回归的即视感。

也可以看看K2研发人员对K2的评价和一些心路历程(好笑的是,这篇博客被被翻译成英文在国外各大平台转发,真是此一时彼一时也):

传送门:

https://bigeagle.me/2025/07/kimi-k2/

巧合的是,K2发布后,OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。我猜大概率跟K2的开源有关。

后记:机器学习实验室公众号近期在进行内容重组,会更加聚焦AIGC和AGI相关学术、技术与应用。会加大原创内容产出,感谢各位读者的支持。

八年AI算法老兵,目前正在全面拥抱大模型和AIGC。感兴趣的小伙伴可以加我微信(louwill_)交个朋友。

>/ 作者:louwill

小讯
上一篇 2026-04-05 18:59
下一篇 2026-04-05 18:57

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221561.html