神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:AI 已从聊天转向办事。作者建议:别只看模型,选对“架构”并学会管理智能体,才是将 AI 转化为生产力的通关秘籍。文章来自编译。
自 ChatGPT 问世以来,我已经写过八篇此类指南。但这个版本标志着与过去的彻底决裂,因为“使用 AI”的内涵已经发生了翻天覆地的变化。就在几个月前,对绝大多数人而言,“使用 AI”指的还是与聊天机器人进行你来我往的对话。但在过去的几个月里,将 AI 作为“智能体”(Agent)使用已变得切实可行:你可以给它们分配任务,它们会根据需要调用工具自动完成。基于这一转变,在决定使用哪款 AI 时,你必须考量三个维度:模型(Models)、应用(Apps)和驱动架构(Harnesses)。

模型是底层的“AI 大脑”,目前的三巨头是 GPT-5.2⁄5.3、Claude Opus 4.6 和 Gemini 3 Pro(各公司发布新模型的速度远超以往,版本号可能在几周内就会变动)。模型决定了系统的智能程度、推理能力、写作或编程水平、表格分析能力,以及视觉识别和图像生成的质量。性能评测所衡量的、AI 公司竞相提升的,正是模型。当人们说“Claude 文笔更好”或“ChatGPT 数学更强”时,指的就是模型。
应用是你实际用来与模型交流、并让模型为你处理实际工作的成品。最常见的应用是各模型的官方网站:chatgpt.com、claude.ai、gemini.google.com(或手机上的相应 App)。现在,这些 AI 公司开发的其它应用也越来越多,包括 OpenAI Codex 或 Claude Code 等编程工具,以及 Claude Cowork 等桌面工具。
驱动架构(Harnesses)能让 AI 模型释放出处理实际工作的力量,就像马具能束缚马的原始力量并让它拉车或耕地一样。这种架构是可让AI 自主调用工具、执行操作并完成多步骤任务的一整套系统。应用通常自带这种架构。比方说,网页版的 Claude 就有这样一套架构,能让 Claude 4.6 Opus 进行网页搜索和编写代码,同时还嵌有如何处理表格制作或平面设计等问题的指令。而 Claude Code 的架构则更为庞大:它赋予了 Claude 4.6 Opus 一台虚拟电脑、一个浏览器和一个代码终端,并使其有能力将这些工具串联起来,从而完成从零开始调研、构建和测试新网站的任务。Manus(近期被 Meta 收购)本质上就是一个可以封装多种模型的独立驱动架构。最近备受关注的 OpenClaw,则主要是一个让你能在本地电脑上调用任何 AI 模型的架构。
直到不久前,你还没必要了解这些。那时候模型即产品,应用即网站,驱动架构也微乎其微——你输入,它回答,你再输入。但现在,同一个模型在不同架构下的表现可能天差地别。在聊天窗口和你说话的 Claude Opus 4.6,与在 Claude Code 内部连续数小时自主编写和测试软件的 Claude Opus 4.6,完全是两种体验。仅仅回答问题的 GPT-5.2,与能浏览网页并为你制作幻灯片的 GPT-5.2 Thinking,也判若云泥。
这意味着“我该用哪款 AI?”这个问题变得更难回答了,因为答案现在取决于你打算用它做什么。下面让我带大家梳理一下当前的格局如何。
顶级模型的综合能力已非常接近,且比以往任何时候都更“聪明”、犯错更少。但是,如果你想将先进 AI用于严肃用途,每月至少需要支付 20 美元(尽管全球某些地区有更便宜的替代方案)。这 20 美元能为你换来两样东西:选择模型的权利,以及使用更前沿的模型与应用的能力。我也希望能告诉你现在的免费模型和付费模型一样好,但事实并非如此。免费模型大多针对聊天而非准确性进行了优化,虽然响应极快且聊起天来更有趣,但在准确性和能力上大打折扣。通常,当有人在网上发布 AI 表现滑稽的例子时,要么是因为他们用的是免费版,要么是因为他们没有手动选择更智能的模型。
Anthropic 的 Claude Opus 4.6、谷歌的 Gemini 3.0 Pro 以及 OpenAI 的 ChatGPT 5.2 Thinking是目前最为先进的三大模型。无论选择哪一家,你都能获得顶级的 AI 体验,包括语音模式、图像和文档识别、代码执行能力、优秀的移动 App,以及生成图像和视频的能力(不过 Claude 在视频生成方面仍有欠缺)。它们性格迥异,各有千秋,但对大多数人来说,挑一个自己喜欢的就足够了。目前,该领域的其它公司无论是在模型还是在应用架构上都已落后,尽管有些用户可能仍有理由选择它们。

这绝非夸大其词——如果是闲聊,对错无关紧要,可以用小模型;否则,请务必选择高级模型!在使用任何 AI 应用(稍后详细介绍),包括手机 App 或网站时,最重要的一件事就是选对模型,而 AI 公司往往把这个步骤搞得很复杂。如果只是聊天,默认模型没问题;但如果你想处理正经工作,默认模型就不够看了。在 ChatGPT 中,无论你用的是免费版还是付费版,默认给出的都是“ChatGPT 5.2”。问题在于,GPT-5.2 并不是一个单一的模型,而是一个系列,涵盖了从极弱的 GPT-5.2 mini 到优秀的 GPT-5.2 Thinking,再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时,实际上是在使用“自动”模式,AI 会自行决定调用哪个模型,而通常选的是性能较弱的那个。付费用户可以自主选择模型,而且更复杂的是,你还可以选择模型对答案的“思考”强度。处理复杂任务时,我总是手动选择 GPT-5.2 Thinking Extended(20 美元套餐)或 GPT-5.2 Thinking Heavy(更贵的套餐)。对于真正需要深度思考的难题,你可以选择 GPT-5.2 Pro,这是最强的模型,仅在更高等级的订阅中提供。
对于 Gemini,有三个选项:Gemini 3 Flash、Gemini 3 Thinking,以及某些付费方案中的 3 Pro。如果你订阅了 Ultra 方案,还可以使用处理极难问题的 Gemini Deep Think(它藏在另一个菜单里)。处理严肃问题时,请务必选择 Gemini 3 Pro 或 Thinking。至于 Claude,你需要选择 Opus 4.6(虽然新的 Sonnet 4.6 也很强大,但还是略逊一筹),并打开“extended thinking”(深度思考)开关。
再次重申,对大多数人来说,模型之间的差距已经缩小到一定程度,以至于应用和驱动架构比模型本身更重要。这引出了一个更大的课题。
绝大多数人通过聊天机器人(即 ChatGPT、Claude 和 Gemini 的主站或移动 App)来访问 AI 模型。事实上,聊天机器人可以被视为最重要、普及度最高的 AI 应用。但在过去的几个月里,这些应用之间已经出现巨大差异。
部分差异体现在 AI 捆绑的功能上:
这些功能确实让人眼花缭乱!对于大多数从事实际工作的人来说,最重要的附加功能是深度搜索(Deep Research)以及将 AI 与你的个人内容连接。不过,你可能也想尝试下其它功能。然而,日益凸显的重要性在于“架构”——即 AI 能够调用的工具。在这方面,OpenAI 和 Anthropic 明显比谷歌领先。Claude.ai 和 ChatGPT 都具备编写和执行代码、交付文件、进行深入调研等能力。相比之下,谷歌 Gemini 的网页端功能要弱得多(尽管其模型本身同样出色)。

如你所见,提出类似的问题,ChatGPT 和 Claude 能给出可用的表格和 PPT,并附带可供追溯的清晰引用。然而,Gemini 无法生成这两类文档,也不提供引用或研究支持。不过,我预计谷歌很快就会跟上。
关于聊天机器人的最后一点:GPT-5.2 Pro 配合其自带架构,是一个非常聪明的模型。它最近刚刚协助推导出了一个物理学方面的新发现,也是我认为在处理复杂统计和分析工作时最强的模型。该模型仅在更昂贵的套餐中提供。谷歌的 Gemini 3 Deep Think 似乎也很有实力,但同样受限于架构问题。

聊天机器人网站是大多数人与 AI 互动的地方,但那已不再是完成最令人惊叹的工作的场所。越来越多的其它应用将同样的模型封装在更强大的驱动架构中,这些应用至关重要。
Claude Code、OpenAI Codex 和 Google Antigravity 是其中发展最成熟的,它们都面向开发者。每一款应用都赋予了 AI 模型访问代码库、终端以及自主编写、运行和测试代码的能力。你只需描述想要构建的内容,AI 就会去执行,完成后或遇到卡点时再回来反馈。如果你以编程为生,这些工具正在改变你的职业生涯。即便你不会写代码,由于它们拥有最广泛的驱动架构,它们依然能完成惊人的工作量。
比方说,几年前,我曾对如何制作一个完全基于纸质的大语言模型感到好奇——即通过一套书籍展示 GPT-1 原始的所有内部权重和参数(AI 的代码,由 1.17 亿个数字组成)。理论上,只要时间充足,你可以通过这些数字手动完成 AI 的数学运算。这听起来是个有趣的念头,但显然不值得亲自动手。一周前,我让 Claude Code 帮我完成。在大约一小时里(主要是 AI 在工作,我只提了几个建议),它制作了 80 卷排版精美的书籍,包含了 GPT-1 的全部内容及数学运算指南。它还为每卷书设计并生成了将内部权重视觉化的封面。接着,它搭建了一个非常优雅的网站,接入了 Stripe 支付和 Lulu 按需印刷服务,测试了整个系统,并为我完成了上线。我从头到尾没碰过一行代码。我试着按成本价上架了 20 本,结果当天就卖光了。所有卷册目前在网站上仍有免费 PDF 可供下载。现在,我只需抛出一个原本需要大量工作的小项目构想,几乎不用费力,它就能帮我落地。
不过,编程架构对门外汉来说仍有风险,且其重心显然在编程上。新的应用和架构正开始向其它类型的知识工作领域拓展。
Excel 版和 PowerPoint 版的 Claude 是应用内特定架构的典型。它们都为这些程序提供了令人印象深刻的扩展功能。尤其是 Excel 版 Claude,它彻底改变了处理电子表格的方式。对于那些靠 Excel 吃饭的人来说,它的冲击力可能不亚于 Claude Code——你越来越多地只需告诉 AI 你的意图,它就会像个初级分析师一样把活儿干了。由于结果直接呈现在 Excel 中,检查起来也非常方便。谷歌与 Google Sheets 有一些集成(但深度稍逊),而 OpenAI 目前还没有真正的对标产品。

Claude Cowork 是一个真正的创新,值得单独列为一类。Anthropic 在 1 月份发布的 Cowork 本质上是针对非技术类工作的 Claude Code。它可以在桌面上运行,可以直接处理本地文件和浏览器。相对于 Claude Code,它安全性更高,对非技术用户也更友好(它在虚拟机中运行,内置了默认拒绝网络连接和硬隔离技术,如果你在意技术细节的话)。你只需描述一个目标(如“整理这些报销单”、“将这些 PDF 中的数据提取到表格中”、“起草一份摘要”),Claude 就会制定计划,将其分解为子任务,并在你眼前(或者在你忙别的时)在你的电脑上自动执行。它基于与 Claude Code 相同的智能体架构,且其本身很大程度上就是由 Claude Code 在两周内编写而成的。目前 OpenAI 和谷歌还没有直接的同类产品。Cowork 尚处于研究预览阶段,这意味着它还不成熟且极其消耗使用额度,但它明确预示了未来的方向:AI 不再只是和你聊聊工作,而是替你完成工作。

NotebookLM 是谷歌针对另一个问题,即“如何利用 AI 梳理海量信息”的答案你可以让 NotebookLM 进行自主深度研究,或者添加你自己的论文、YouTube 视频、网站或文件。它会构建一个交互式的知识库,你可以进行查询,将其转化为幻灯片、思维导图、视频,以及最为出名的——由两位 AI 主播讨论你素材的播客(你甚至可以打断主播提问)。如果你是学生、研究员,或者任何需要定期梳理大量文档的人,NotebookLM 都是一个极具价值的工具。
最后是 OpenClaw。虽然它不属于上述任何一类,且我几乎可以肯定你不该使用它,但我还是想提一下。OpenClaw 是一款在 1 月底走红的开源 AI 智能体。它在你的电脑本地运行,可以连接你想要的任何 AI 模型。你通过 WhatsApp 或 iMessage 等标准聊天工具与之对话,就像在和真人聊天。它可以浏览网页、管理文件、发送邮件和执行命令。它就像一个住在你机器里的全天候私人助理。但它也存在严重的安全风险:你给了 AI 极高的电脑和账户访问权限,没人知道你正暴露在什么样的危险之中。不过,它的确代表了未来的趋势。
我知道信息量很大,让我简化一下。
如果你刚刚入门,请从三大系统(ChatGPT、Claude 或 Gemini)中选一个,支付 20 美元,并选择高级模型。我书里的建议依然有效:让 AI 深度参与你所做的每一件事。开始用它处理实际工作。上传一份你正在处理的真实文档。以招标书或标准作业程序的形式给 AI 一个极其复杂的任务。进行反复对话并不断挑战它。光是这样做带给你的收获,就远超任何指南。
如果你已经对聊天机器人驾轻就熟,那就试试那些特定的应用。NotebookLM 免费且易上手,是一个很好的起点。如果你想更进一步,Anthropic 提供了最强大的全家桶:Claude Code、Claude Cowork(均可通过 Claude 桌面版访问),以及专门的 PowerPoint 和 Excel 插件。去尝试一下吧,但记住,不要只是试用 Demo,而是用它处理真实需求。观察它的操作,在它出错时进行修正。此时你已不再是在写提示词,而是在(正如我在上一篇文章中所写的)进行“管理”。
从聊天机器人向智能体的转变,是自 ChatGPT 发布以来 AI 使用方式上最重大的变革。目前尚处早期,这些工具依然难以捉摸,且仍会做出一些令人费解的事。但一个“能干活”的 AI 在根本上比一个“只会说”的 AI 更有价值,学会这样使用它绝对值得你投入精力。
译者:boxi。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268328.html