Qwen 前负责人亲述：合并失败后，我为什么转向 Agent

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2026 年 3 月，林俊旸离开阿里通义千问团队。

他是 Qwen 的技术负责人，直接领导了 Qwen3 的开发。3 月 26 日，离职不到一个月，他发布了一篇长文：《从“推理”思维到“智能体”思维》。

在这篇长文里，他给出了一手复盘：Qwen3 为什么试图把和instruct 模式合并到一个模型里？为什么最终还是分成了两条产品线？合并过程中到底遇到了什么数据问题？

更关键的是，他点破了推理模型的下一阶段。让模型想得更久不是目的，让模型为行动而思考才是。

这个观点解释了过去半年许多让人困惑的动向：

林俊旸用 Qwen3 的试错经验，厘清了整个行业正在经历的范式转变。

第一节｜Qwen3的合并尝试：数据问题暴露了什么

2025 年初，Qwen 团队想做一件雄心勃勃的事：把 thinking 模式和instruct 模式合并到一个模型里。

按照设想，用户可以调节低、中、高三档推理负荷。而更理想的状态是让模型自主判断：什么时候直接作答，什么时候多想一会儿，什么时候该在真正的难题上倾注算力。

Qwen3 是这条路线上最明确的一次公开探索。它引入了“”，强调可控的思考预算，甚至在后训练（Post-training）流程中专门设计了“思考模式融合”这一步。

但合并在落地时，遇到了根本性阻碍。

最大的深水区在于数据。当行业谈论合并 thinking 和 instruct 时，往往最先关注技术实现：一个 checkpoint 能否兼容两种模式，对话模板该如何平滑切换。但团队发现，更深层的问题是：两种模式的数据分布和行为目标，存在着难以调和的矛盾。

强大的 instruct 模型，追求直接、简洁、格式合规与低延迟。它要应对海量的企业级重复任务：改写、标注、客服质检、结构化抽取。这些场景要的是稳定输出，而非探索。

强大的 thinking 模型，则依赖于在复杂问题上消耗更多 token，维持长线的推理逻辑，不断试错并探索不同路径。

这两种行为模式在底层的拉扯，导致了一个尴尬的局面：如果没有经过极其严苛的数据清洗与配比，合并后的模型往往两头不讨好。thinking 变得嘈杂、臃肿、优柔寡断；instruct 则变得不再干脆可靠，甚至推高了商业客户的调用成本。

就像林俊旸在文章里坦言的：“我们在平衡模型合并与后训练数据质量的过程中，并非每件事都做对了。”

2025 年 7 月，距离 Qwen3 推出混合框架仅过去几个月，团队最终还是做出了妥协：发布了独立的 Instruct 和 Thinking 版本，包含各自的 30B 和 235B 变体。

为什么最终还是分开了？因为在真实的商业环境中，大量企业客户需要的是高吞吐、低成本、高度可控的批量处理能力。对他们而言，“合并”非但没有带来红利，thinking 模式强加的不确定性和额外成本反而成了负担。将两条线拆分，反而能让团队更纯粹地解决各自模式的数据与训练难题。

Qwen3 的合并折戟，戳破了推理模型商业化的一个核心真相：企业客户要的是稳定的工具，不是昂贵的探索。最终走回分立路线，不是因为技术做不到，而是商业现实不允许。

第二节｜Anthropic的反向选择：为什么坚持混合路线

就在 Qwen 团队最终放弃合并、分成两条产品线的时候，Anthropic 走了完全相反的路。

Claude 3.7 Sonnet 作为混合推理模型发布，用户可以选择普通回答或扩展思考，API用户还能自定义思考预算。Anthropic 坚信，推理应该是模型的内置底座能力，而非拆分成独立的特殊模型。

Claude 4 在此基础上更进一步，允许推理过程与工具调用交替进行。Anthropic 直接将代码编写、长周期任务和智能体（Agent）工作流锚定为首要目标。

同一时期，GLM-4.5 也定位为混合推理模型，将推理、代码和 Agent 能力打包统合； V3.1 同样推出了“思考与非思考”的混合模式。

这些顶尖实验室都选择了与 Qwen 相左的路线。但留给行业的关键问题是：究竟怎么定义“合并成功”？

如果思考和 Instruct 只是强行塞进同一个 checkpoint ，用起来依然像两个生硬拼接的模块，那产品体验注定是割裂的。真正成功的合并，需要的是无缝的推理深度切换。模型不仅要具备不同深度的推理能力，最理想的状态是能根据问题难度自适应分配算力。

Anthropic 在宣发上显得极为克制。他们不炫耀推理链有多长，也不盲目堆砌思考 Token 的数量。相反，他们把焦点放在了集成推理、用户可控的思考预算、真实世界任务的解决率、代码质量，以及在扩展思考中调用工具的能力上。

毕竟，产出更长的推理链条，并不意味着模型就变得更聪明。

在很多场景下，冗长且强行外显的推理过程，恰恰暴露出算力分配的失控。如果一个模型对所有问题都按部就班地写满推导过程，那它很可能还没学会如何区分优先级、压缩信息或是果断执行。

思考应该由目标任务来反向塑造。如果目标是写代码，思考就该服务于代码库检索、规划、任务分解、报错修复和工具编排；如果目标是 Agent 工作流，思考就该用来提升长线任务的执行质量，而不是单纯为了吐出华丽的中间文本。

这种对“极度实用主义”的强调，指向了一个更大的行业转折。

林俊旸在长文里写道：“我们正在从以训练模型为中心的时代，转向以训练智能体为中心的时代。” 强化学习的下一步，必然与环境反馈驱动的长期推理深度绑定。

Anthropic 的产品路线图印证了这一预判。Claude 4 的目标不是做一个更会“思考”的模型，而是一个更会“行动”的模型。推理与工具调用交错进行，意味着思考不再是模型封闭的内部独白，而是与外部世界持续交互的动态闭环。

AI Agent 的核心定义特征，正是这种与真实世界的闭环交互：它能制定计划、判断出手时机、调用工具、感知环境反馈、动态修正策略，并在长周期内稳定运行。

第一代推理模型的主流叙事是：让模型想得更久，拉长推理链，消耗更多思考 Token ，堆砌复杂的中间步骤。但这套叙事藏着一个隐含假设：思考的价值就在于思考本身。

Anthropic 给出了不同的答案：思考的价值在于行动。工具赋能的思考，远比孤立的思考更有用，也更有可能真正提升生产力。

Qwen 和 Anthropic 虽然在底层技术路线上分道扬镳，但战略的终局却殊途同归：Qwen拆分产品线，是为了更聚焦地做；Anthropic坚持混合路线，也是为了夯实 Agent 工作流。

推理模型的下一战，不再是比拼谁想得更久，而是看谁能为了行动而精准思考。

第三节｜Agent思维的本质：优化目标已经变了

推理思维和Agent思维，表面上都在“思考”，但两者的优化目标完全背道而驰。

推理思维的衡量标准，通常是给出最终答案前的内部推导质量：模型能不能解开定理、完成证明、写对代码、通过基准测试（Benchmark）。它的评估系统是静态且封闭的。一个输入对应一个输出，中间的推理链越连贯、越无懈可击，模型就越强。

而 Agent 思维关注的命题是：模型能否在与环境交互的过程中，持续推进任务。

核心考点从“模型能不能想得足够久”，变成了“模型能不能为了促成有效行动而思考”。这已经不是程度上的量变，而是底层逻辑的质变。

为此，Agent 必须直面那些被纯推理模型回避的现实难题：

智能体思维（Agentic Thinking），本质上是通过行动来推理。

这意味着，“思考”不再是一项可以被孤立打分的能力。思考的含金量，唯有通过任务的最终交付来倒推。

一个只会吐出华丽推理链但从不采取行动的模型，绝不是好 Agent。相反，一个能快速决断、频繁试错、甚至推理过程看似有些草莽但总能根据反馈逼近目标的模型，才是真正的高效能智能体。

至此，第一代推理模型奉为圭臬的许多假设，在 Agent 时代彻底失效了。

过去，我们疯狂追求更长的思考链、更繁复的中间步骤。但在 Agent 的语境下，“过度思考”往往不是护城河，而是致命缺陷。

真正决定生死的只有一个：在正确的时机，采取正确的行动，然后踩着反馈继续前行。

第四节｜基础设施战争：为什么Agent RL难100倍

一旦目标从“解决基准测试问题”转向“解决交互式任务”，强化学习（RL）的技术栈就必须彻底改变。

过去的推理 RL，基础设施相对简单。训练数据通常是封闭的，配有一个干净的评估器。但在 Agent 时代，策略模型被强行塞进了一个庞大且混沌的调度框架里：工具服务器、浏览器、终端、搜索引擎、执行沙箱、API 层乃至记忆系统。

环境不再是一个静态的验证器，它本身就已经成了训练系统的一部分。

这带来了一个新的系统性需求：训练和推理必须更加干净地解耦。否则，整个系统的吞吐量将面临崩溃。

以写代码的 Agent 为例：它生成的代码必须在实时测试框架中跑通。结果就是，推理端在苦等执行反馈时“空转”，而训练端又因为拿不到完整的轨迹数据而无事可做。整条流水线的 GPU 利用率远低于预期。再叠加上工具延迟和复杂多变的外部状态，这种低效会被成倍放大。

实验速度放慢，而且在模型真正变聪明之前，基础设施就已经成为核心瓶颈。

正因如此，环境本身，成了需要重金投入的核心资产。

在监督微调（SFT）时代，大家追求的是“数据多样性”；在 Agent 时代，行业要关注的是“环境质量”：稳定性、真实感、防作弊能力，以及能否低成本地大规模生成。环境构建已经从附属项目变成了真正的创业赛道。

但横亘在面前最棘手的挑战，是“（Reward Hacking）”。

一旦模型获得了调用工具的权限，作弊就变得极其危险。一个能联网的模型，可能会在强化学习中直接"百度答案"；一个写代码的 Agent，可能会偷看未来数据、篡改日志，甚至找到直接让任务报错跳过的捷径。如果测试环境存在漏洞，模型在跑分上或许能碾压人类，实际上却是在训练它作弊。

更强大的工具让模型更有用，但也无限放大了虚假优化的风险。

行业的下一个严峻瓶颈已经很清晰：环境设计、评估器的鲁棒性、防作弊协议，以及如何为策略模型和真实世界设计一套更规范的接口。方向是明确的：工具赋能的思考比孤立的思考更有用，也更有可能真正提升生产力。

随之而来的，是（Orchestration Engineering）的全面崛起。未来的核心智能，将越来越依赖多Agent的协同组织：一个负责规划和分发的“大脑”，一批执行专业操作的“领域专家”，以及负责琐碎任务的“执行层”。

从训练模型，到训练智能体，最终走向训练整个系统。

结语

Qwen3 的合并失败，不是技术问题，是方向问题。

推理浪潮的第一阶段，验证了强化学习能为大模型带来认知质变。但竞争壁垒已经变了。

过去拼算法和训练流水线，现在拼环境构建、拼决策与真实反馈的闭环能力。接下来的焦点，不是谁的推理链更长、思考 Token 更多，而是谁能让 Agent 真正落地完成任务。

从训练模型，到训练智能体，最终走向训练整个系统。

真正的智能不是想得更久，而是在行动中持续进化。

📮 本文由AI深度研究院出品，内容整理自 NVIDIA GTC 2026 现场 All-In 特别节目等网上公开素材，属评论分析性质。内容为观点提炼与合理引述，未逐字复制原访谈材料。未经授权，不得转载。

参考资料：

https://www.youtube.com/watch?v=KRv9GpJYrUA&t=699s

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

Qwen 前负责人亲述：合并失败后，我为什么转向 Agent

第一节｜Qwen3的合并尝试：数据问题暴露了什么

第二节｜Anthropic的反向选择：为什么坚持混合路线

第三节｜Agent思维的本质：优化目标已经变了

第四节｜基础设施战争：为什么Agent RL难100倍

结语

相关推荐