预训练红利趋于耗尽，Agent Labs 如何靠「系统工程」挑战 Model Labs？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

最近几年，围绕 AI 的创业公司有很多，比如我们最熟悉的 OpenAI、Anthropic、Google DeepMind，他们投入海量资金和算力，致力于训练更大、更强的基础模型 (Foundation Models)，我们称之为 「模型实验室」(Model Labs)。

基于模型实验室对外提供的 API 服务，还出现了各种被称为「GPT-Wrapper」的「套壳」企业。不过，这种称呼显然有点贬低的意味，不训练模型，并不意味着不创造工程价值。

The Information 的记者 Steph Palazzolo 最近提出了一个新词「Neolab」，用来描述那些「利用 OpenAI 和 Anthropic 所忽视的新方法来开发 AI 模型和研究」的公司（比如 Thinking Machines）。

这 10 家「新实验室」均由前模型实验室的 AI 研究人员创立，有 9 家在种子轮估值就超过 10 亿美元。

但是，就像「Neocloud」(新云) 或「Modern Data Stack」(现代数据栈) 一样，「Neo」(新) 本身并不能构成一种商业模式或投资论点。

而根据 AI 工程师社区 Latent Space 联合创始人 Swyx 的观察，一种新的力量正在悄然崛起。

他们不以训练通用大模型为核心目标，而是专注于构建能够解决特定问题的、高度集成的 AI 系统——「智能体」(Agents)。这些公司，如 Cognition、Perplexity、Cursor，正在开辟一条全新的、高增长的创业路径。

他将这些新兴力量定义为 「智能体实验室」(Agent Labs)。

Model Labs vs. Agent Labs

这个定义的核心在于其商业模式的变化：模型实验室主要研究和销售模型本身 (通过 API)，而智能体实验室则主要研究和销售集成了模型、工具、工作流的智能体产品。

要理解 Agent Labs 的崛起，首先必须厘清它与 Model Labs 的 DNA 差异。

1. 产品优先 vs. 模型优先

这是两者最核心的区别。

Neolab 或模型实验室路径，往往是先投入巨资研发一个业界领先的模型，再思考其应用场景。一个例子是 Magic.dev，它在产品尚不明确时就融资 1 亿美元，用于研发其长上下文模型。

智能体实验室则完全相反，它们走的是一条「产品优先」的道路。

以 Cursor 为例，这家公司最初并没有训练自己的模型。他们选择了一个极其聪明的切入点：fork 开源的 VS Code 编辑器，然后深度集成市面上最好的大模型 API (如 GPT-4)。

通过这种方式，Cursor 团队在长达两年的时间里，得以直接服务于开发者，深刻理解他们在真实编程场景中的痛点和需求。在积累了海量用户交互数据和领域知识后，他们才开始基于开源模型进行持续训练和微调，最终推出了自己的专用编码模型。

这种产品优先的路径优势显而易见：

2. 商业模式：按结果付费 vs. 按用量付费

商业模式的差异是战略分歧的直接体现。

模型实验室的核心产品是模型的推理能力，因此其商业模式通常与使用量强相关：按 token 计费的 API，或是每月 20 美元的订阅服务 (如 ChatGPT Plus)。在这种模式下，用户的付费意愿受到模型成本的直接制约，价格战激烈，利润空间相对有限，模型提供商不得不在性能和成本之间艰难权衡。

智能体实验室则截然不同。它们销售的不是模型本身，而是由智能体完成的特定任务或带来的业务结果。

换句话说，Agent Labs 销售的是「结果」(outcome)，而不是「过程」(token)。

当一个 AI 智能体能够可靠地替代一部分人类劳动时，它的定价锚点就不再是 token 成本，而是它所替代的人力成本或创造的商业价值。

因此，我们看到一些企业级 AI Agent 甚至可以向客户收取每月 2000 美元的费用。只要它交付的结果稳定可靠，客户就愿意为此买单，因为这可能远低于雇佣一名员工的成本。

这种基于结果的定价模式，为智能体实验室带来了更高的利润率、更强的定价权和更健康的现金流。

3. 自主性哲学：人机协作 vs. 完全自主

对于「自主性」(autonomy)，两类实验室也有着不同的理解和侧重，而且最能体现二者差异。

有的人可能会认为，「智能体实验室」肯定会更追求自主性吧？实际上恰恰相反，模型实验室处于对模型能力的追求，反而对自主性更激进。

模型实验室，特别是那些以实现 AGI 为终极目标的研究机构，更倾向于追求长时间的、无需人类干预的完全自主。在他们看来，这是通往通用智能的关键路径。因此，他们设计的 Agent 系统通常只是轻量级的控制框架，因为他们相信模型的下一次迭代升级可能会让复杂的工程框架变得多余。

智能体实验室则更务实。它们优先考虑的是速度、可控性和人机交互的流畅性。它们的产品通常是「人类在环」(human-in-the-loop) 的，允许用户随时审查、干预和修正智能体的行为。

对智能体实验室来说，一个复杂的框架只要能将未来几个月后才能实现的能力「带到」今天，那么每隔几个月重写一次也是值得的。正如 Cognition 在其技术博客中强调的，快速的上下文处理是实现快速智能体的第一步。

4. 组织与文化：康威定律的启示

根据康威定律 (Conway’s Law)，「任何组织在设计一套系统时，所交付的设计方案在结构上都与该组织的沟通结构保持一致」。这个定律也适用于 AI 公司的资源分配。

一个公司的优先级，最终体现在其人力、资金和时间的分配上。

组织结构差异

一个有趣的「信号」是，被模型实验室收购的创业公司创始人，离职率往往较高。而在智能体实验室，拥有创业经验的员工反而是一种荣誉，被视为公司产品导向文化的体现。

智能体实验室的兴起并非偶然，而是几大趋势共同作用的结果。

1. 巨头的战略转向：从应用竞争者到平台赋能者

长期以来，业界一直担心 OpenAI 会利用其模型优势，通吃所有应用层。但最新的信号表明，模型实验室的战略正在发生深刻转变——它们正从应用层的竞争者，转向更底层的「AI 云」平台。

第一个关键数据点来自 AI 研究机构 Epoch 的估算。数据显示，OpenAI 用于所有产品（ChatGPT, Sora, API 等）的推理计算资源，仅占其总计算资源的 28%。

OpenAI Compute Usage

这意味着，即使我们每天都在使用 ChatGPT，OpenAI 的绝大部分资源（超过 70%）仍然投入在了尚未发表的基础模型研究和训练上。这表明了他们的核心优先级依然是 AGI 和前沿模型。

第二个关键信号来自 Sam Altman 最近的一次讲话。他首次明确引用了比尔·盖茨关于平台的著名论断「The Bill Gates Line」，并清晰地阐述了 OpenAI 服务第三方开发者的意图。这与过去将 ChatGPT 打造成「超级应用」的思路有了明显转变。

Sam Altman quotes Bill Gates

这种转变完全符合经济逻辑。对于 OpenAI 这样的公司来说，最有规模效应的战略是向下游整合——自建芯片、数据中心，甚至能源——而不是向上游的应用层无限扩张。

成为平台，让成千上万的开发者在上面构建应用，远比自己亲自下场做所有应用要明智得多。

这是一种经典的商业策略：「商品化你的互补品」(Commoditize your complements)。模型是核心产品，而基于模型构建的 Agent 和应用是其互补品。通过开放平台、降低开发门槛，模型实验室可以极大地繁荣生态，从而巩固自己作为平台的核心地位。

我们已经看到这种趋势的体现：OpenAI 和 Vercel 等公司，都开始开源或分享他们内部使用的 Agent 经验，从销售助理到代码审查，这在过去是难以想象的。

当平台层主动「让利」给应用层时，智能体实验室的春天就到来了。

2. 模型的多样性与商品化：聚合者的价值凸显

去年之前，GPT-4 是唯一的选择。但现在，情况已经大不相同。

前沿模型的竞争者数量在增加，而不是减少。从 Anthropic 的 Claude 系列，到 Google 的 Gemini 系列，再到众多强大的开源模型（如 DeepSeek、Qwen），开发者拥有了前所未有的多样化选择。

Frontier Model Labs

这种多样性带来了新的复杂性：

因此，一个重要的市场需求应运而生：用户希望有人能为他们处理这种复杂性，提供端到端的解决方案。这正是智能体实验室的核心价值所在。

3. 智能体是「系统工程」：「模型」只是其中一环

一个正在被广泛接受的事实是：「模型选择器是个谎言」。

一个真正有效的智能体，远不止是调用一个模型那么简单。它是一个复杂的系统，包含了模型、提示工程、记忆、工具使用、规划、编排、授权等多个组件。

「模型」只是「智能体系统」中的一个可插拔部件。

Model Labs 在「模型」这一层所拥有的核心优势，在整个「端到端系统」的竞争中被大大稀释了。Agent Labs 的核心竞争力在于构建这个系统的其它所有部分。

4. 训练范式的演进：从预训练到后训练

AI 领域正在经历一次深刻的范式转移：从通用知识的预训练 (Pre-training)，转向特定领域能力的强化学习 (RL) 和后训练 (Post-training)。

自 2012 年的 AlexNet 和 2018 年的 GPT-1 以来，通过扩大模型规模和数据规模来提升性能的预训练方法已经持续了近十年。我们可能正在接近高质量公开预训练数据的极限。

而新的前沿阵地，在于如何让模型在特定领域内做得更好。这需要高质量的领域数据、专门设计的环境以及与人类专家对齐的强化学习。

Fast.ai 的创始人 Jeremy Howard 早在两年前就预言了这一趋势。如今，我们看到了越来越多的证据。例如，xAI 的 Grok 4 据称在后训练阶段的投入几乎与预训练相当。

这对智能体实验室来说是一个巨大的机遇。它们可以利用越来越强大的开源模型作为基座，然后利用自己在特定领域（如编程、金融、法律）积累的专有数据和用户反馈，进行持续的训练和微调。

Sasha Rush 在一次演讲中展示了一张图表。图表显示，通过后训练，一个较小的开源模型在特定任务上的性能，可以显著逼近甚至超越最顶尖的闭源模型。

Cursor‘s Model Performance

值得注意的是，这张图的横轴是对数坐标。这意味着，在后训练阶段，相对较小的投入就能带来巨大的性能提升，弥补与前沿模型的差距。

当智能体实验室掌握了这种能力后，它们就不再仅仅是模型 API 的调用者，而是拥有了自己核心技术护城河的「实验室」。

这也是为什么我们称之为「Agent Labs」，而不仅仅是「Agent Companies」——持续的研发投入是它们保持领先的关键。

三、未来展望：通用模型的终结？

将模型实验室和智能体实验室进行区分，并非要将两者对立起来。事实上，它们之间存在着融合的趋势：模型实验室内部也在孵化自己的 Agent 团队（如 Claude Code），而智能体实验室也开始训练自己的模型。

但这种区分的意义在于，它揭示了 AI 产业一种可能的分工方向。

一个有趣的问题是：这种分工会是长期的吗？一个「看空」的理由是，如果模型实验室最终成功打造出能够胜任所有任务的超级通用模型 (AGI)，那么智能体实验室的价值可能会被削弱。

然而，「一个模型包打天下」的「全能模型」(Omnimodel) 愿景，目前正面临挑战。

• GPT-4o 发布时，其中的「o」代表「omni」，意在统一处理文本、图像、音频。
• GPT-5 的推出过程中，路由模型似乎遇到了问题，导致 OpenAI 不得不重新引入更稳定的 GPT-4o。
• 在 OpenAI 的 API 中，我们依然能看到 gpt-5-codex 这样的专用模型与通用 gpt-5 模型并存。

Fidji Simo 最近在一篇博文中直接写道：「超越一刀切模式 (Moving beyond one-size-fits-all)」。

这一切都暗示，至少在现阶段，AI 的发展路径可能不是走向单一的、巨大的通用模型，而是走向一个由多个专用模型和智能体组成的、更加异构和复杂的生态系统。

不论是模型实验室、智能体实验室，还是 NeoLabs，这些本身只是名词概念，但可以帮助我们更好地理解和分析 AI 行业的发展。

模型实验室专注于追求 AGI 的模型能力，智能体实验室则致力于探索工程化落地，并通过收集更具体的用户反馈深耕数据和算法优势。

模型实验室正在成为新时代的「水电煤」基础设施，而智能体实验室不仅仅是「API 包装器」，它们是 AI 时代的新型「系统集成商」。

随着平台层愈发开放，模型能力愈发普及，智能体实验室的黄金时代，或许才刚刚开始。