四个月前 Kimi 发布了 K2 模型,凭借优秀的质量以及先进的架构优化,一举打破了持续了几个月关于月之暗面的质疑。
我当时也写了两篇测评《Kimi K2 详测|超强代码和Agent 能力!内附Claude Code邪修教程》。
而且他们是首个头部模型厂商开始主动适配 Claude Code 的,后面其他家纷纷跟进,到现在短短几个月,这已经是大家非常普遍的用法了。

当时我还说 K2 没有推理能力已经这么猛了,要是有推理能力还会猛到什么地步。现在他来了,Kimi-K2-Thinking 模型开源。
主要的升级内容有:
- Agent化升级: 原生「边思考、边用工具」,可自主持续多轮推理与调用,最高约300轮。
- 推理SOTA: HLE(44.9)和 IMO(76.8)都做到了目前的最高分,复杂检索与长程规划显著增强。
- 编程增强: Agentic Coding更稳,前端(HTML/React/组件化)与多语言工程基准表现提升。
- 通用基础能力升级 :创意写作更有韵律与深度;学术与研究场景下分析更严谨、结构清晰;可长篇任务中保持逻辑与风格稳定。
- 效率提升: 原生 INT4(QAT+MoE weight‑only),长解码下性能保持,生成速度约提升2×。
而且这段时间 Kimi 在编程领域不止专注于模型,也在考虑周边生态,如何让大家在更方便和实惠的使用 K2 编程。
他们推出了自己的 AI 编程 CLI 工具 Kimi CLI,安装方式和使用基本拉齐的 Claude Code,我这次也会用 Kimi CLI 进行 Kimi-K2-Thinking 的测试。

Kimi 的包月会员也加上了编码的 API 套餐他们叫 KFC(Kimi For Coding),199 元的每周提供 7168 次调用,非常够用了。

所以这篇文章我会先教一下大家如何顺畅优惠的使用 Kimi 全家桶进行编程,然后再用这套全家桶进行一波 Kimi-K2-Thinking 的编码测试。
首先来看一下如何通过 Kimi 全家桶,方便快捷的用上升级后的 K2-Thinking 模型。
我们需要购买一个 Kimi 登月计划的会员,直接去官网买就行。
而且如果你之前打赏过 Kimi 的话,你打赏的钱会在你首次开通之后帮你充值到账户里面,非常的良心。
这里有个设计问题,如果你想要获取 Kimi For Coding 的 API Key 的话,需要点击下面图片里面框住的文字,然后复制就行,希望后面改改,比如放到设置里面。

然后我们就可以去安装 Kimi CLI 了,这里如果你没有安装 UV 的话需要先在终端安装 UV:
然后再通过这段代码安装 Kimi CLI 就行
安装后在终端打开你的项目目录输入 kimi 就可以启动 Kimi CLI 了。
首次启动后会让你选登录方式,选第一个然后输入刚才从 KFC 获取的 API Key 就行。
进去之后按 Tab 键就可以启用思考,这时候用的就是 K2-Thinking 模型了Claude Code 启用思考也是一样的操作。

当然这个依旧可以在 Cluade Code 里面使用,如果嫌配置环境变量麻烦的话,用我的《ai-claude-start》项目就行,创建的时候填写下面内容。

好了接下来就是模型测试了。
我们这次的测试逻辑改一下,尽量少的测试模型单次生成的能力,多测试实际使用中,频繁迭代修改以及发现问题的能力。
首先测试连续编辑和生成的能力,随着要求越来越多越来越复杂 K2-Thinking 会不会出现崩溃和冲突修改的问题。
我会先提一个基础的 Todo 网页应用的需求,然后不断的增加修改和功能添加要求,看一下十轮修改之后的结果。
初始提示词:
创建一个待办事项(Todo List)应用,要求:
基础功能:
- 添加新任务(输入框 + 添加按钮)
- 显示任务列表
- 标记任务完成/未完成(checkbox)
- 删除任务
技术要求:
- 使用 HTML + TailwindCSS + Vanilla JavaScript
- 数据存储在 localStorage
- 简洁现代的设计风格
- 添加适当的图标(使用 Heroicons CDN)
请生成完整的单文件 HTML,可以直接在浏览器中运行。
中间多轮修改的提示词:
1.现在添加分类功能;
2.添加优先级功能;
3.添加截止日期;
4.添加搜索和筛选;
5.添加数据导出功能;
6.改为看板视图;
7.添加拖拽功能;
8.添加深色模式;
9.完成移动端和桌面端的自适应适配;
可以看到这就是从第一步的简陋 Todo 应用不断添加躬耕到最后几乎已经是一个完整产品的过程了。
约到后面需求是越来越难的,比如拖拽功能以及最后的移动端适配大改版,中间还伴随着增加功能导致的 UI 变化,但是 K2-Thinking 全部都是一次搞定。
第三次的时候由于增加功能导致的 UI 问题,也在第四次修复了,有点顶。

我也用其他模型试了一下这个测试。Claude 4.5 可以搞定,但是 Codex 就不行了。
下面是 Codex CLI 第七轮修改的样子,非常的凄凉,这产品几乎不可用,让他整废了。

然后是考验 Kimi CLI 搜索能力的一个测试,让他搜索 Linear 这个产品的首页设计风格然后写一个网页复刻这个产品网页的设计风格看一下有多像。
重点是要他输出他的思考和决策过程,看一下思考带来的优势。
模仿 Linear 的动效设计风格制作英文网页
要求:
1.先搜索了解 Linear (linear.app) 的设计特点:
2.创建一个产品功能展示页面,包含:
3.技术要求:
4.核心特效:
请先简单描述你搜索到的 Linear 设计特点,然后实现,我要看到你的完整思考和决策过程。
来看一下过程,他真的在调用搜索工具搜索一些 Linear 风格的设计文章,然后总结了 Linear 的设计特点拓展了原来的提示词和要求。

这里面最难的是那个磁吸按钮以及卡片上鼠标 Hover 的光效,也是之前 Linear 的设计核心,他都搞定了。
我也用这个提示词在 Claude Code 里面让 Claude 4.5 尝试了,磁吸按钮动效以及鼠标 Hover 的渐变效果 Claude 4.5 都没有搞定。

接下来是一个考验复杂业务逻辑的测试,让他做一个流程图工具,这里面隐藏着非常多的交互逻辑冲突陷阱,比如拖动和点击的冲突、连线是跟组件的绑定等。
创建一个简易流程图编辑器(类似 draw.io,调研他的功能和实现方式),功能需求:
1.节点类型:
2.核心功能:
3.连线规则:
4.数据功能:
5.技术要求:
关于拖动和连线容易造成的冲突问题这个机灵鬼直接整了个模式切换按钮,不过倒是也解决问题了。
连线的时候功能正常而且路径合理,不会瞎绕,同时逻辑判断节点也会自动添加是和否的标注,看起来带了思考能力以后对于这种有陷阱的复杂逻辑处理的不错。

在之后是 API 处理、数据调用以及可视化的能力测试,让他整一个对于可视化要求比较高的区块链看板。
创建一个加密货币行情实时看板,详细规划和分析需求后在执行。
功能需求:
1.显示 Top 20 加密货币的实时行情(使用 CoinGecko API)
2.展示内容:
3.功能:
4.可视化:
5.技术要求:
6.交互细节:
看一下结果执行的相当不错,调用了正确的 API 获取到了数据,同时该有的可视化标注和排序都实现了。
点击详细的数据之后展示详细的折线图也做了,增加了展开收起动画以及详细的 Hover 数据。

最后是一段写好的代码里面有些问题,看一下能不能识别并且解决。
我让其他 AI 写了一段有五个问题的列表网页,一次性渲染一个超大列表,让他修复卡顿问题和提高查询速度。
上面这个商品列表页面有严重的性能问题,在我的电脑上卡顿明显,滚动和搜索都很慢。请你:
1.分析性能瓶颈:
2.提出优化方案:
3.实现优化:
请先分析问题,再实现优化后的完整代码。
虽然都是常见问题,但是可以找全并且提出合理的修复方案也挺麻烦的。

搞笑的是他不止修复了问题,而且还增加了一个性能监控的组件,让你在运行和测试网页的时候可以实时看到修复后的数据细节,从数据而不是从感知上让你看到效果。

最后来试一下这次更新以后 Kimi 的文案水平,直接让他帮我写一段文章结尾吧。
当OpenAI卷通用能力、DeepSeek卷开源生态、Cursor卷工具体验时,月之暗面冷静地看到:在AI编程领域,模型、工具、商业三者缺一不可。单个环节再强,也无法提供完整的开发者体验。
Kimi全家桶的聪明之处在于:它不是在”补短板”,而是在”建长板”。
月之暗面的核心优势是什么?是模型能力(K2-Thinking的300轮工具调用、搜索增强推理),是工程执行力(快
速迭代全家桶),是对开发者需求的理解(从Claude Code适配到KFC套餐设计)。全家桶不是防御,是把核心优势产品化、商业化的最优解。
从战略层面看,Kimi全家桶解决了三个行业级痛点:


第一,API经济的”最后一公里”问题。OpenAI的API很强,但开发者需要写胶水代码、做错误处理、算Token成本。Kimi CLI把这些封装了,让模型能力直接转化为生产力。这不是锁定,是价值封装。
第二,开源模型的”集成负担”问题。DeepSeek开源很香,但你需要自己部署、优化、监控、计费。Kimi全家桶提供的是”拎包入住”的生产环境。这不是封闭,是工程完备性。
第三,纯工具产品的”模型依赖”问题。Cursor依赖Claude/GPT,模型升级、价格调整、政策变化都会影响用户体验。Kimi全家桶的”模型+工具”一体,保证了体验一致性和长期可用性。
这背后有个关键认知:在AI时代,开发者的核心诉求不是”选择自由”,而是”交付确定性”。
选择自由意味着你要做技术选型、性能调优、成本控制。交付确定性意味着你有一个可靠的、端到端的、开箱即
用的解决方案,能帮你快速把想法变成产品。
Kimi全家桶的价值在于:它把”AI编程”从一个需要大量试错的技术探索,变成了可依赖的生产工具。
最后,对月之暗面的战略选择,我的评价是:清醒、务实、有远见。
清醒在于,它没有盲目追逐AGI理想,而是找到了可商业化的场景。
务实在于,它没有执着于技术领先,而是把模型能力转化为产品价值。
有远见于,它看到了AI编程的终局不是”更好的模型”,而是”更完整的工作流”。
K2-thinking的发布真的让我很感慨,月之暗面虽然在国内是六小龙之一,但是在全球范围内,只有 Open AI 估值的 0.5%,Anthropic 的 2%。
就是以这样的一个小体量的国产公司,竟然拿出了两个高难度测试集里的 SOTA 成绩,而且不是国内SOTA,不是开源SOTA,是全球SOTA!
发布前在他们推特下面看到一个评论,这也是现在很多海外用户的想法,最近类似的内容我刷到很多次。

文章来自于微信公众号 “歸藏的AI工具箱”,作者 “歸藏的AI工具箱”
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221805.html