一、 的范式LLM Paradigms
二、Agency需求的降低The Decreased Need for Agency
三、企业经济的必然法则Enterprise Economic Imperatives
四、Agents与 AI 价值链Agents and the AI Value Chain
在关于 AI 未来的预测方面,存在着一个奇怪的悖论:一方面,你不想成为忽视最可怕的末日情景的人,毕竟谁会希望自己最终被证明是愚蠢的乐观主义者呢?
与此同时,也存在着一种压力,让人不得不相信,我们正处于泡沫之中,所有的这些炒作和各种花销,都终将走向破产。
一直以来,我都认为,我们处于泡沫之中,但是我同样认为泡沫也有好处(the benefits of bubbles)。
然而,现在的我,得出了一个不同的结论:我不认为我们正处于泡沫之中。
不过同样讽刺的是,我的这种想法,尤其是想法的转变,也许正是我们身处泡沫之中的最有力证据。
一、LLM 的范式 LLM Paradigms
在过去几周里,首先是在 Nvidia 财报的背景下,然后是上周在 Oracle 财报的背景下,我谈到了三个 LLM 拐点(inflection point)。
1、第一个 LLM 的拐点,是 2022 年 11 月 ChatGPT 的发布,这几乎不需要解释。
是的,基于 transformer 的大型语言模型在 2017 年就被引入了,其能力令人印象深刻且在不断增长,但却被严重低估了。
在2022年的当时来看,这是一项令人难以置信的新技术,但却极度缺乏产品应用和创业活力(product applications and startup energy)。
不用说,几周之后,这种情况就被彻底颠覆了。
ChatGPT 当然让世界见识到了 LLM 的能力,但最初的版本有两个缺陷一直留在许多人的脑海中,尤其是那些坚信我们正处于泡沫之中的人。
第一个缺陷,是 LLM 经常出错,更糟糕的是,当它不知道答案时,还会产生幻觉。
这让 LLM 感觉像某种魔术表演:管用的时候令人惊叹,但却不是你可以依赖的东西。
第二个缺陷与第一个相关:即使处于那种有缺陷的状态,LLM 也极其有用,但你需要知道什么时候用,用它们来做什么,并且你需要主动地管理错误,并验证输出,以防它产生幻觉。
2、第二个 LLM 拐点,是 2024 年 9 月 OpenAI 的 o1 模型的发布。
到那时,LLM 已经取得了巨大的进步,这既归功于新的基础模型,也因为后训练的持续改进。
这意味着,在 ChatGPT 或 Claude 中,构成答案的 token 流,现在更有可能是正确的,并且产生幻觉的概率有所降低。
然而,o1 的不同之处在于,它在将答案交付给你之前,会对其进行推理验证。
传统 LLM ,面临的巨大挑战在于它们具有路径依赖性(path-dependent),虽然它们可以将难题作为一个整体来考虑,但一旦它们致力于某个特定的猜测,它们就会被锁定,并注定会失败。
这是所谓“自回归大型语言模型”的一个根本弱点,而迄今为止,所有的模型都属于这一类。
然而,会进行自我评估(self-evaluate):它们会推导出一个答案,然后思考该答案是否正确,或者它们是否应该考虑其他替代方案。
用我上面指出的弱点来说,它们在管理错误方面,具有内部的主动性,减轻了用户持续主动引导 LLM 的负担,并且结果非常显著。
从我的角度来看,如果说 ChatGPT 的卓越之处在于使 LLM 变得更具可读性和实用性,那么 o1 的卓越之处就在于使 LLM 变得更加可靠和不可或缺。
3、第三个拐点,Anthropic 于 2025 年 11 月 24 日发布了 Opus 4.5。
在当时,这并没有引起太大的轰动。
然后,在 12 月的某个时候,搭载 Opus 4.5 的 Claude Code ,似乎突然能够完成以前根本不可能做到的事情。
OpenAI 大约在同一时间(12 月 18 日),发布了 GPT-5.2-Codex,它也具备类似的能力。
人们谈论agents,已经有一段时间了。然而突然之间,Claude 和 Codex 都在切实地完成具体任务,,并且它们做得很正确,其中一些任务需要耗费数小时。
不过,关于 Opus 4.5 模型发布日期的那一点很有趣。
关于 agentic 工作负载的关键在于,它们不仅仅关乎模型,也不仅仅像 o1 那样递归地使用模型。相反,使 agentic 工作负载发挥作用的一个关键组成部分是“harness”,也就是实际控制某个模型的软件(the software that actually controls the model)。
换句话说,Claude Code 和 OpenAI 的 Codex ,实际上将用户从模型中“分离”了出来:你只需向 agent 发出指令,而 agent 则实际去指挥模型。
关键在于,agent 还可以使用其他确定性工具(deterministic tools),这意味着它同样可以验证自己的结果。
将其置于coding的背景下,在前面跳的第一种范式中,LLM 会生成代码,在第二种范式中,LLM 会思考它正在生成的代码,并朝着更好的答案进行迭代。
而在目前的第三种范式中,agent 会指挥模型生成代码,然后检查该代码是否真的有效,如果无效则重试。
这一切,都不需要用户的介入。
换句话说,最初 ChatGPT 带来的许多最大缺陷,已经被大幅削弱,至少对于像编程这样,可验证的用例而言,就是如此。
LLM 第一次就答对的可能性,要大得多,它们会对结果进行推理以提高成功率,而现在 agents 会主动验证结果,无需人类参与其中。
此时,这就只剩下一个缺陷了:那就是弄清楚到底该用这些东西来做什么。
二、Agency需求的降低 The Decreased Need for Agency
然而,为什么整个行业会如此受限于算力?
以及,为什么大型云厂商在 capex 上的大规模投资是合理的?
第一种范式,在训练方面需要大量的算力,但是推理部分,也即实际回答一个问题,则是相对高效的,你只需将模型吐出的任何内容,发送给用户即可(所以我的理解就是基本没有推理inference)。
第二种范式,急剧增加了推理所需的计算量,原因有两点:首先,生成答案时,需要多得多的 tokens,因为除了答案本身之外,所有的“推理reasoning”过程也都需要 tokens。
其次,推理reasoning,使模型变得更加有用这一事实,意味着它们被使用得更频繁了,这本身就推动了 token 使用量的增加。
然而,正是第三种范式,才真正打破了天平,证明了 capex 支出并非投机性投资,而是为了满足远超供应的需求而新增的投资。
首先,生成一个答案,通常需要多次调用推理模型reasoning model 。
其次,agent 本身也需要算力,并且这种计算——以及 agent 所使用的工具——由 CPU 来执行,比由 GPU 来执行更好。
第三,agents 代表了实用性上的又一次阶跃函数式的增长,这意味着它们将被使用得甚至比聊天机器人中的推理模型还要多。
第三点将如何体现,目前尚未得到充分认识。毕竟,使用聊天机器人的人,远比使用 agents 的人多,而且我会说,大多数人使用聊天机器人的频率,还没有达到他们本应该达到的程度!
这一直是一个主动性的问题(a question of agency):要充分利用 AI,需要真正地发挥主动性去使用 AI。
大型语言模型是智能的,但它们没有目标、价值观或驱动力。它们是供人们使用的工具,供任何有意愿且有能力发挥主动性去使用它们的人使用。
有多少应用程序或服务,还没有被开发出来,并不是因为某个人无法想象或在脑海中创造它们,而是因为他们缺乏实际交付它们所需的资源、团队或协调能力?
这触及了 AI 影响世界的途径,这种影响超越了客户支持(customer support)中的成本节约,或是其他任何显而易见的容易实现的目标(低垂的果实low-hanging fruit)。
随着大型语言模型在需要时,通过确定性计算(deterministic computing)进行理解、并执行复杂命令的能力不断增强,指挥 AI 做事的独立个体的潜在力量,也会随之增强。
互联网消除了媒体行业对复杂成本结构的需求及其内在的防御性,而 AI 有潜力在更多的行业中做到同样的事情。
这就是真正能发挥作用的 agents有多么重要。
你能看到它们的到来,但当它们真的来临时,你仍然会感到惊讶,而且就像我们谈论所有与 AI 相关的事物时必须说的那样,它们目前所呈现的形态,已经是它们未来最差的样子了。
然而,这一切对主动性agency的影响,才是最深远的。
是的,你需要有主动性,才能使用 agents。
是的,具备这种主动性的人数,可能远远少于那些可能会使用聊天机器人的人数。
是的,你可以说,聊天机器人本身将成为 agent 经理,但更关键的观察在于,通过将人类从直接的模型管理中抽象出来,任何单个的人类都可以控制多个 agents。
就计算能力、乃至经济影响而言,这意味着实际上,不需要那么多具备主动性的人,就能极大地增加被积极用于创造具有重大经济影响的产品的算力。
换言之,agents 的崛起,不仅意味着对算力需求的急剧增加,也意味着需求显现不再那么依赖于人类的大规模采用。
是的,AI 仍然需要主动性,只是它不需要那么多人的主动性,就能产生深远的影响。
三、企业经济的必然法则Enterprise Economic Imperatives
在最近的 MacBook Neo 发布之后,关注 Apple 的媒体紧紧抓住了华硕的首席财务官 Nick Wu 在该公司近期财报电话会议上的言论,他将这台599 美元的电脑描述为“对整个市场的冲击potential effects on that market”。
然而,同样有趣的是 ,Wu 试图淡化 Neo 对该市场的潜在影响:“事实上,我们早在去年下半年就听说了 MacBook Neo 即将出货的消息。因此,我们做了一些内部准备。但该产品正式发布后,我们发现其规格存在一些局限。例如,内存不可升级,而且只有 8GB 的内存。因此这可能会限制某些应用。所以我认为, Apple 在定位这款产品时,可能更多地是关注于内容消费(content consumption)。这与主流笔记本电脑的使用场景有些不同,因为在这种情况下,Neo 感觉更像是一台平板电脑,毕竟平板电脑就是主要用于内容消费。”
这有点像是在找借口,考虑到 Neo 的处理器是多么强大,以及部分得益于 Apple 硬件和软件的深度整合,Mac OS 在 8GB 内存上运行得是多么流畅。
与此同时,Wu 谈及到的某些事实也是对的,那就是大多数消费者,通常确实只是想消费内容。
但我想补充的是,这意味着他应该更加担心 Neo,而不是更少担心。
你最喜欢的生产力应用程序(productivity application),最终总是会转向企业市场。
因为公司才愿意为生产力买单,毕竟他们才是真正为那些他们希望变得更具生产力的员工支付薪水的人。
有理由预计,这一点同样适用于 AI。
至少在短期内,AI 最具吸引力的消费者应用,是 Google 和 Meta 的广告业务,它们与内容消费并存。
同时,OpenAI 认为自己能将超过一小部分比例的消费者,转化为订阅用户的想法,其实一直都是不切实际的。
这既是为什么广告模式不可或缺的原因,也是为什么这还不足以支付那么多支出的原因。
毫无疑问,大多数人并不想为 AI 付费。
至于他们是否愿意足够频繁地使用它,以维持广告模式的运转,也还有待观察。
这也就是说,Anthropic 几乎完全专注于企业市场的做法,是对的。
很多公司已经表现出愿意为能让员工提高生产力的软件买单,而 AI 在这方面肯定符合要求。
然而,真正让企业高管垂涎三尺的,不仅是 AI 会裁减工作岗位的前景,而且裁减岗位恰恰是因为这能让整个公司更具生产力。
情况一直都是如此,即使在大公司里,也只有相对少数的人能真正取得突破,并以有意义的方式推动公司向前发展。
然而,这种动力需要通过一个由人类组成的庞大机构进行过滤,这些人在某些方向上加速了这种努力,在另一些方向上却拖慢了它。
那个机构,使得广泛的影响成为可能,但它伴随着巨大的协调成本。
然而,agents 将更强烈地向纯粹的加速倾斜,让那些创造价值的驱动者更具影响力。
我赞同这样一种观点:最好的公司,会希望利用 AI 做更多的事情,而不仅仅是省钱。
然而,大型组织的现实情况是,AI 的积极影响,将不在于消灭工作岗位,而在于用 agents 替换掉组织机器中那些难以管理和激励的“人类齿轮human cogs”。
Agents 不仅会按照指示做事,而且会不知疲倦、持续不断地工作,直到任务完成。
这可能使得,我们并不处于泡沫之中的论点,变得更加令人信服:
1、LLM 的所有弱点,正在通过算力的指数级增长得到解决;
2、能使需求暴涨的、需要有效利用 AI 的人类数量,正在减少。
3、使用 agents 带来的经济回报,不仅对行业的底线bottom line有影响,也会推高天花板top line。
在这种背景下,每一家大型云厂商都表示,算力供不应求,并且每一家大型云厂商都在面对股市怀疑的情况下,宣布了远超预期的 capex 计划,这难道有什么好奇怪的吗?
这也就是为什么,不应该把即将到来的、归咎于 AI 的一波裁员潮,仅仅看作是纠正新冠疫情时期过度招聘决定、或在多次紧缩后调整薪酬结构的借口。
这些,其实都是事实!
与此同时,值得深思的是,公司之所以变得臃肿,是因为这在很长一段时间里,招人一直是扩张的唯一方式,而且很难知道协调成本的拖累和庞大的员工队伍,所带来的边际收益递减(diminishing returns )在什么时候会超过边缘员工带来的好处。
不幸的是,你只有在越过那个点时,才会发现它,而且很难走回头路。
然而,AI 不仅为消除这种臃肿,提供了上述借口,而且还将“适度规模的点“rightsize point”,显著推向了规模小得多的员工队伍。
越来越多的公司,不仅会怀疑他们在前 AI 时代是否雇佣了太多人,还会怀疑:他们在后 AI 时代,是否雇佣了太多人。
最具前瞻性和最能经受未来考验的方法,可能将是多裁员而不是少裁员,这可以倒逼留下来的人别无选择,只能利用 agents 来重建规模。
毕竟,如果他们不这样做,那些从一开始就基于 AI 建立起来的、规模小得多的竞争对手,很快就会以更低的成本结构(smaller cost structures)和随着时间推移结构性增强的能力(more capabilities that will structurally increase over time),紧跟在他们身后(甚至超越?)。
情况,很可能会变得糟糕。
我不是在倡导这种结果,而是在分析为什么它很可能会发生。
这种经济上的必然性,将是无法抗拒的,并且随着时间的推移,将刺激对算力更大的需求,这进一步支持了现在不是泡沫的观点
四、Agents与AI 价值链Agents and the AI Value Chain
另一个重要的泡沫问题是,关于 Anthropic 和 OpenAI 极高的估值。
当然,也许这些东西都是真实的,但如果模型变成了一种商品( commodity,就是模型能力成了大路货),那还有利润可图吗?
Horace Dediu 在 Asymco 上提出了这些问题,并想知道 Apple 是否正在执行企业史上最辉煌的举措:
“这正是 Apple 的押注变得天才的地方。AI 模型商品化的速度,比任何人预测的都要快,软件和硬件都有商品化的趋势。保护壁垒是存在的,但它们与集成和分销(integration and distribution)有关。”
“DeepSeek 花费 600 万美元,构建了一个模型,就足以媲美耗资 1 亿美元的系统。开源模型,现在为 80% 寻求 VC 融资的初创公司提供支持。”
“大公司正花费数千亿美元建立的护城河,正在蒸发。”
“Apple 比任何人都早明白这一点,因为它没有构建自己的 AI 模型,而是以每年约 10 亿美元的价格获得了 Google 的 Gemini 授权。当外包只需要 10 亿美元时,为什么非要花费 1000 亿美元去建一座工厂?”
“如果明年,出现了更好的模型,Apple 只需更换供应商即可……”
“Apple 并没有错过 AI 革命,它只是押注赢家不会是那些构建基础设施的人。赢家将是那些拥有客户的人,而在地球上没有其他人拥有比它更好的客户。”
我认为,在前面提到的第一个 LLM 范式期间,以上所有这些断言,都是站得住脚的。
没过多久,多个基础模型在处理大多数人使用 LLM 的事务上,就已经足够优秀了,比如,烹饪或基本的医疗建议,或是作为治疗师或伴侣。
此外,有理由期望这种质量的模型,很快就能在本地运行。
然而,推理范式(reasoning paradigm),让本地推理(local inference)的畅想,可能无法成立。
考虑到生成的 tokens 数量,推理模型不仅需要快速的算力,而且它们还需要呈指数级增长的内存,来容纳大得多的上下文窗口,这是本地模型最大的局限。
Apple 制造出了令人惊叹的芯片,其极具吸引力的统一内存架构,使其设备上的基础推理(basic inference),比其他任何人的设备都更具合理性。
但在可预见的未来,也不存在任何一种情况能让具有竞争力的、哪怕是勉强能与云端模型竞争的强大推理模型,在本地运行(因为内存不够)。
然而,最可能会对 Dediu 的论点造成致命打击的,是 agents。
具体来说,前面我提到,使 Opus 4.5 令人瞩目的,并非模型发布本身,而是 Claude Code harness (实际控制某个模型的软件)的变化,这使其突然变得极其有用。
这意味着,模型性能并非唯一重要的事情,模型与 harness 之间的整合,才是真正实现 agent 差异化的地方。
在弄清楚 AI 行业未来的结构,以及利润流向时,这是一件非常重要的事情,因为利润会从价值链中被商品化的模块化部分流出,并流向价值链中具有差异化(differentiated)的整合部分。
Apple 当然是这方面最终极的例子,它的硬件并没有商品化,因为它是与软件整合在一起的,这就是为什么 Apple 能够持续收取更高的价格,并攫取 PC 和智能手机领域几乎全部的利润。
因此可以得出结论,如果 agents 需要模型与 harness 之间的整合,那么建立这种整合的公司——尤其是 Anthropic 和 OpenAI(Gemini 是一个强大的模型,但 Google 尚未交付令人信服的 harness)——实际上有望获得比去年年底看起来要高得多的利润。
同理,那些认为模型只能商品化的公司,可能会在交付具有竞争力的产品时,陷入挣扎。
在这方面,煤矿里的金丝雀是微软(用来预警“毒气”)。
曾经,Microsoft 自诩为整合的 AI 供应商,在财报电话会议上吹嘘其与 OpenAI 的深度整合,将带来具有可持续差异化的基础设施。
之后,OpenAI 险些管理层大崩盘,而 Microsoft 随即转变了态度,越来越多地将模型作为商品来谈论,并提出了一项核心 AI 战略,该战略需要在模型周围构建基础设施,而这些模型本身将是可互换的,并且从 Microsoft 的客户那里被剥离出来。
然而,快进到上周,当 Microsoft 透露他们将如何应对 AI 减少席位seats,带来的潜在业务影响时(微软的商业模式是seat-based business model),声称公司打算将 AI 捆绑到一个新的、更高级别的企业级产品 E7 中,其价格将是以前最顶级的 E5 的两倍,即每个席位每月 99 美元。
这是一个巨大的涨幅,Microsoft 需要用真正能让这些席位更具生产力的 AI,来证明其合理性,而他们随这个新捆绑包推出的产品是 Copilot Cowork。
如果“Cowork”这个名字听起来很耳熟,那是因为这基本上就是 Claude Cowork 的企业版,而 Claude Cowork 是该公司在今年早些时候发布的、图形用户界面化的 Claude Code 版本。
Microsoft 的版本,有一些重要的区别,包括后者在云端运行,并基于你的组织数据,拥有随之而来的所有权限和访问策略。
然而,关键在于,Copilot Cowork——与 Copilot 聊天机器人不同——并非是不挑模型的。
Cowork 是一个agent,这意味着,它既需要一个模型,也需要一个 harness,并且这是两个被整合在一起的部分,而不是模块化的组件。
这其中的影响是重大的。
Microsoft 承认,至少在目前,要交付一个真正引人注目,且企业愿意为之买单的 agentic 产品,就意味着要放弃他们之前声明的不挑模型的目标。
进一步而言,这就提出了一种可能性,即模型不是、也不会成为商品,因为 agents 所需要的不仅仅是模型,光靠模型是不够的。
这无疑让人对 Apple 仅仅授权 Gemini 并以新的 Siri 的形式自己构建 harness 的决定,产生了疑问。
Microsoft 认定,他们无法通过走那条路,来交付一款引人注目的产品。
那么,Apple 做了什么,来让人相信他们能做得更好呢?
如果真要说的话,这家公司的可取之处在于 Dediu 最后得出的那一点:消费者可能根本就不那么在乎 agents。
在这种情况下,Apple 做到“足够好good enough”,就可以了。
但是,这对微软的企业级客户,是不够的,这些客户的要求更高,所以,微软会意识到,它将不得不分给 Anthropic 更多的利润,哪怕它本不愿意。
然而,重要的是,如果 agents 正在使 Anthropic 和 OpenAI 成为价值链中的整合点(the point of integration in the value chain),那么认为这些公司被高估、以及其他公司代表它两在数据中心进行的巨额投资是不合理的那种泡沫论点,可能就是不正确的。
我一直坚信,只要每个人都在担心泡沫,就不需要去担心泡沫。
只有当人们把谨慎抛诸脑后,并打包票说,这绝对不是泡沫的时候,我们才可能真正身处泡沫之中。
是的,我认为 agents 的崛起,意味着我们并不在泡沫之中。
现在的capex是合理的,并且 Anthropic 和 OpenAI 看起来比以往任何时候都更有韧性。
也或者,当我宣布没有泡沫,就意味着有泡沫,那也就这样好了,so be it!
全文完。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242274.html