Qwen 前负责人亲述:合并失败后,我为什么转向 Agent

Qwen 前负责人亲述:合并失败后,我为什么转向 Agent2026 年 3 月 林俊旸离开阿里通义千问团队 他是 Qwen 的技术负责人 直接领导了 Qwen3 的开发 3 月 26 日 离职不到一个月 他发布了一篇长文 从 推理 思维到 智能体 思维 在这篇长文里 他给出了一手复盘 Qwen3 为什么试图把 和 instruct 模式合并到一个模型里 为什么最终还是分成了两条产品线 合并过程中到底遇到了什么数据问题 更关键的是

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



图片

2026 年 3 月,林俊旸离开阿里通义千问团队。

他是 Qwen 的技术负责人,直接领导了 Qwen3 的开发。3 月 26 日,离职不到一个月,他发布了一篇长文:《从“推理”思维到“智能体”思维》。

在这篇长文里,他给出了一手复盘:Qwen3 为什么试图把 和instruct 模式合并到一个模型里?为什么最终还是分成了两条产品线?合并过程中到底遇到了什么数据问题?

更关键的是,他点破了推理模型的下一阶段。让模型想得更久不是目的,让模型为行动而思考才是。

这个观点解释了过去半年许多让人困惑的动向:

林俊旸用 Qwen3 的试错经验,厘清了整个行业正在经历的范式转变。

第一节|Qwen3的合并尝试:数据问题暴露了什么

2025 年初,Qwen 团队想做一件雄心勃勃的事:把 thinking 模式和instruct 模式合并到一个模型里。

按照设想,用户可以调节低、中、高三档推理负荷。而更理想的状态是让模型自主判断:什么时候直接作答,什么时候多想一会儿,什么时候该在真正的难题上倾注算力。

Qwen3 是这条路线上最明确的一次公开探索。它引入了“”,强调可控的思考预算,甚至在后训练(Post-training)流程中专门设计了“思考模式融合”这一步。

但合并在落地时,遇到了根本性阻碍。

最大的深水区在于数据。当行业谈论合并 thinking 和 instruct 时,往往最先关注技术实现:一个 checkpoint 能否兼容两种模式,对话模板该如何平滑切换。但团队发现,更深层的问题是:两种模式的数据分布和行为目标,存在着难以调和的矛盾。

强大的 instruct 模型,追求直接、简洁、格式合规与低延迟。它要应对海量的企业级重复任务:改写、标注、客服质检、结构化抽取。这些场景要的是稳定输出,而非探索。

强大的 thinking 模型,则依赖于在复杂问题上消耗更多 token,维持长线的推理逻辑,不断试错并探索不同路径。

这两种行为模式在底层的拉扯,导致了一个尴尬的局面:如果没有经过极其严苛的数据清洗与配比,合并后的模型往往两头不讨好。thinking 变得嘈杂、臃肿、优柔寡断;instruct 则变得不再干脆可靠,甚至推高了商业客户的调用成本。

就像林俊旸在文章里坦言的:“我们在平衡模型合并与后训练数据质量的过程中,并非每件事都做对了。”

2025 年 7 月,距离 Qwen3 推出混合框架仅过去几个月,团队最终还是做出了妥协:发布了独立的 Instruct 和 Thinking 版本,包含各自的 30B 和 235B 变体。

为什么最终还是分开了?因为在真实的商业环境中,大量企业客户需要的是高吞吐、低成本、高度可控的批量处理能力。对他们而言,“合并”非但没有带来红利,thinking 模式强加的不确定性和额外成本反而成了负担。将两条线拆分,反而能让团队更纯粹地解决各自模式的数据与训练难题。

Qwen3 的合并折戟,戳破了推理模型商业化的一个核心真相:企业客户要的是稳定的工具,不是昂贵的探索。最终走回分立路线,不是因为技术做不到,而是商业现实不允许。

第二节|Anthropic的反向选择:为什么坚持混合路线

就在 Qwen 团队最终放弃合并、分成两条产品线的时候,Anthropic 走了完全相反的路。

Claude 3.7 Sonnet 作为混合推理模型发布,用户可以选择普通回答或扩展思考,API用户还能自定义思考预算。Anthropic 坚信,推理应该是模型的内置底座能力,而非拆分成独立的特殊模型。

Claude 4 在此基础上更进一步,允许推理过程与工具调用交替进行。Anthropic 直接将代码编写、长周期任务和智能体(Agent)工作流锚定为首要目标。

同一时期,GLM-4.5 也定位为混合推理模型,将推理、代码和 Agent 能力打包统合; V3.1 同样推出了“思考与非思考”的混合模式。

这些顶尖实验室都选择了与 Qwen 相左的路线。但留给行业的关键问题是:究竟怎么定义“合并成功”?

如果思考和 Instruct 只是强行塞进同一个 checkpoint ,用起来依然像两个生硬拼接的模块,那产品体验注定是割裂的。真正成功的合并,需要的是无缝的推理深度切换。模型不仅要具备不同深度的推理能力,最理想的状态是能根据问题难度自适应分配算力。

Anthropic 在宣发上显得极为克制。他们不炫耀推理链有多长,也不盲目堆砌思考 Token 的数量。相反,他们把焦点放在了集成推理、用户可控的思考预算、真实世界任务的解决率、代码质量,以及在扩展思考中调用工具的能力上。

毕竟,产出更长的推理链条,并不意味着模型就变得更聪明。

在很多场景下,冗长且强行外显的推理过程,恰恰暴露出算力分配的失控。如果一个模型对所有问题都按部就班地写满推导过程,那它很可能还没学会如何区分优先级、压缩信息或是果断执行。

思考应该由目标任务来反向塑造。如果目标是写代码,思考就该服务于代码库检索、规划、任务分解、报错修复和工具编排;如果目标是 Agent 工作流,思考就该用来提升长线任务的执行质量,而不是单纯为了吐出华丽的中间文本。

这种对“极度实用主义”的强调,指向了一个更大的行业转折。

林俊旸在长文里写道:“我们正在从以训练模型为中心的时代,转向以训练智能体为中心的时代。” 强化学习的下一步,必然与环境反馈驱动的长期推理深度绑定。

Anthropic 的产品路线图印证了这一预判。Claude 4 的目标不是做一个更会“思考”的模型,而是一个更会“行动”的模型。推理与工具调用交错进行,意味着思考不再是模型封闭的内部独白,而是与外部世界持续交互的动态闭环。

AI Agent 的核心定义特征,正是这种与真实世界的闭环交互:它能制定计划、判断出手时机、调用工具、感知环境反馈、动态修正策略,并在长周期内稳定运行。

第一代推理模型的主流叙事是:让模型想得更久,拉长推理链,消耗更多思考 Token ,堆砌复杂的中间步骤。但这套叙事藏着一个隐含假设:思考的价值就在于思考本身。

Anthropic 给出了不同的答案:思考的价值在于行动。工具赋能的思考,远比孤立的思考更有用,也更有可能真正提升生产力。

Qwen 和 Anthropic 虽然在底层技术路线上分道扬镳,但战略的终局却殊途同归:Qwen拆分产品线,是为了更聚焦地做;Anthropic坚持混合路线,也是为了夯实 Agent 工作流。

推理模型的下一战,不再是比拼谁想得更久,而是看谁能为了行动而精准思考。

第三节|Agent思维的本质:优化目标已经变了

推理思维和Agent思维,表面上都在“思考”,但两者的优化目标完全背道而驰。

推理思维的衡量标准,通常是给出最终答案前的内部推导质量:模型能不能解开定理、完成证明、写对代码、通过基准测试(Benchmark)。它的评估系统是静态且封闭的。一个输入对应一个输出,中间的推理链越连贯、越无懈可击,模型就越强。

而 Agent 思维关注的命题是:模型能否在与环境交互的过程中,持续推进任务。

核心考点从“模型能不能想得足够久”,变成了“模型能不能为了促成有效行动而思考”。这已经不是程度上的量变,而是底层逻辑的质变。

为此,Agent 必须直面那些被纯推理模型回避的现实难题:

智能体思维(Agentic Thinking),本质上是通过行动来推理。

这意味着,“思考”不再是一项可以被孤立打分的能力。思考的含金量,唯有通过任务的最终交付来倒推。

一个只会吐出华丽推理链但从不采取行动的模型,绝不是好 Agent。相反,一个能快速决断、频繁试错、甚至推理过程看似有些草莽但总能根据反馈逼近目标的模型,才是真正的高效能智能体。

至此,第一代推理模型奉为圭臬的许多假设,在 Agent 时代彻底失效了。

过去,我们疯狂追求更长的思考链、更繁复的中间步骤。但在 Agent 的语境下,“过度思考”往往不是护城河,而是致命缺陷。

真正决定生死的只有一个:在正确的时机,采取正确的行动,然后踩着反馈继续前行。

第四节|基础设施战争:为什么Agent RL难100倍

一旦目标从“解决基准测试问题”转向“解决交互式任务”,强化学习(RL)的技术栈就必须彻底改变。

过去的推理 RL,基础设施相对简单。训练数据通常是封闭的,配有一个干净的评估器。但在 Agent 时代,策略模型被强行塞进了一个庞大且混沌的调度框架里:工具服务器、浏览器、终端、搜索引擎、执行沙箱、API 层乃至记忆系统。

环境不再是一个静态的验证器,它本身就已经成了训练系统的一部分。

这带来了一个新的系统性需求:训练和推理必须更加干净地解耦。否则,整个系统的吞吐量将面临崩溃。

以写代码的 Agent 为例:它生成的代码必须在实时测试框架中跑通。结果就是,推理端在苦等执行反馈时“空转”,而训练端又因为拿不到完整的轨迹数据而无事可做。整条流水线的 GPU 利用率远低于预期。再叠加上工具延迟和复杂多变的外部状态,这种低效会被成倍放大。

实验速度放慢,而且在模型真正变聪明之前,基础设施就已经成为核心瓶颈。

正因如此,环境本身,成了需要重金投入的核心资产。

在监督微调(SFT)时代,大家追求的是“数据多样性”;在 Agent 时代,行业要关注的是“环境质量”:稳定性、真实感、防作弊能力,以及能否低成本地大规模生成。环境构建已经从附属项目变成了真正的创业赛道。

但横亘在面前最棘手的挑战,是“(Reward Hacking)”。

一旦模型获得了调用工具的权限,作弊就变得极其危险。一个能联网的模型,可能会在强化学习中直接"百度答案";一个写代码的 Agent,可能会偷看未来数据、篡改日志,甚至找到直接让任务报错跳过的捷径。如果测试环境存在漏洞,模型在跑分上或许能碾压人类,实际上却是在训练它作弊。

更强大的工具让模型更有用,但也无限放大了虚假优化的风险。

行业的下一个严峻瓶颈已经很清晰:环境设计、评估器的鲁棒性、防作弊协议,以及如何为策略模型和真实世界设计一套更规范的接口。方向是明确的:工具赋能的思考比孤立的思考更有用,也更有可能真正提升生产力。

随之而来的,是(Orchestration Engineering)的全面崛起。未来的核心智能,将越来越依赖多Agent的协同组织:一个负责规划和分发的“大脑”,一批执行专业操作的“领域专家”,以及负责琐碎任务的“执行层”。

从训练模型,到训练智能体,最终走向训练整个系统。

结语

Qwen3 的合并失败,不是技术问题,是方向问题。

推理浪潮的第一阶段,验证了强化学习能为大模型带来认知质变。但竞争壁垒已经变了。

过去拼算法和训练流水线,现在拼环境构建、拼决策与真实反馈的闭环能力。接下来的焦点,不是谁的推理链更长、思考 Token 更多,而是谁能让 Agent 真正落地完成任务。

从训练模型,到训练智能体,最终走向训练整个系统。

真正的智能不是想得更久,而是在行动中持续进化。


识自AI

📮 本文由AI深度研究院出品,内容整理自 NVIDIA GTC 2026 现场 All-In 特别节目等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

参考资料:

https://www.youtube.com/watch?v=KRv9GpJYrUA&t=699s

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

小讯
上一篇 2026-03-28 11:07
下一篇 2026-03-28 11:05

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/250108.html