智能体时代 AI 选择指南

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：AI 已从聊天转向办事。作者建议：别只看模型，选对“架构”并学会管理智能体，才是将 AI 转化为生产力的通关秘籍。文章来自编译。

自 ChatGPT 问世以来，我已经写过八篇此类指南。但这个版本标志着与过去的彻底决裂，因为“使用 AI”的内涵已经发生了翻天覆地的变化。就在几个月前，对绝大多数人而言，“使用 AI”指的还是与聊天机器人进行你来我往的对话。但在过去的几个月里，将 AI 作为“智能体”（Agent）使用已变得切实可行：你可以给它们分配任务，它们会根据需要调用工具自动完成。基于这一转变，在决定使用哪款 AI 时，你必须考量三个维度：模型（Models）、应用（Apps）和驱动架构（Harnesses）。

模型是底层的“AI 大脑”，目前的三巨头是 GPT-5.²⁄₅.3、Claude Opus 4.6 和 Gemini 3 Pro（各公司发布新模型的速度远超以往，版本号可能在几周内就会变动）。模型决定了系统的智能程度、推理能力、写作或编程水平、表格分析能力，以及视觉识别和图像生成的质量。性能评测所衡量的、AI 公司竞相提升的，正是模型。当人们说“Claude 文笔更好”或“ChatGPT 数学更强”时，指的就是模型。

应用是你实际用来与模型交流、并让模型为你处理实际工作的成品。最常见的应用是各模型的官方网站：chatgpt.com、claude.ai、gemini.google.com（或手机上的相应 App）。现在，这些 AI 公司开发的其它应用也越来越多，包括 OpenAI Codex 或 Claude Code 等编程工具，以及 Claude Cowork 等桌面工具。

驱动架构（Harnesses）能让 AI 模型释放出处理实际工作的力量，就像马具能束缚马的原始力量并让它拉车或耕地一样。这种架构是可让AI 自主调用工具、执行操作并完成多步骤任务的一整套系统。应用通常自带这种架构。比方说，网页版的 Claude 就有这样一套架构，能让 Claude 4.6 Opus 进行网页搜索和编写代码，同时还嵌有如何处理表格制作或平面设计等问题的指令。而 Claude Code 的架构则更为庞大：它赋予了 Claude 4.6 Opus 一台虚拟电脑、一个浏览器和一个代码终端，并使其有能力将这些工具串联起来，从而完成从零开始调研、构建和测试新网站的任务。Manus（近期被 Meta 收购）本质上就是一个可以封装多种模型的独立驱动架构。最近备受关注的 OpenClaw，则主要是一个让你能在本地电脑上调用任何 AI 模型的架构。

直到不久前，你还没必要了解这些。那时候模型即产品，应用即网站，驱动架构也微乎其微——你输入，它回答，你再输入。但现在，同一个模型在不同架构下的表现可能天差地别。在聊天窗口和你说话的 Claude Opus 4.6，与在 Claude Code 内部连续数小时自主编写和测试软件的 Claude Opus 4.6，完全是两种体验。仅仅回答问题的 GPT-5.2，与能浏览网页并为你制作幻灯片的 GPT-5.2 Thinking，也判若云泥。

这意味着“我该用哪款 AI？”这个问题变得更难回答了，因为答案现在取决于你打算用它做什么。下面让我带大家梳理一下当前的格局如何。

顶级模型的综合能力已非常接近，且比以往任何时候都更“聪明”、犯错更少。但是，如果你想将先进 AI用于严肃用途，每月至少需要支付 20 美元（尽管全球某些地区有更便宜的替代方案）。这 20 美元能为你换来两样东西：选择模型的权利，以及使用更前沿的模型与应用的能力。我也希望能告诉你现在的免费模型和付费模型一样好，但事实并非如此。免费模型大多针对聊天而非准确性进行了优化，虽然响应极快且聊起天来更有趣，但在准确性和能力上大打折扣。通常，当有人在网上发布 AI 表现滑稽的例子时，要么是因为他们用的是免费版，要么是因为他们没有手动选择更智能的模型。

Anthropic 的 Claude Opus 4.6、谷歌的 Gemini 3.0 Pro 以及 OpenAI 的 ChatGPT 5.2 Thinking是目前最为先进的三大模型。无论选择哪一家，你都能获得顶级的 AI 体验，包括语音模式、图像和文档识别、代码执行能力、优秀的移动 App，以及生成图像和视频的能力（不过 Claude 在视频生成方面仍有欠缺）。它们性格迥异，各有千秋，但对大多数人来说，挑一个自己喜欢的就足够了。目前，该领域的其它公司无论是在模型还是在应用架构上都已落后，尽管有些用户可能仍有理由选择它们。

这绝非夸大其词——如果是闲聊，对错无关紧要，可以用小模型；否则，请务必选择高级模型！在使用任何 AI 应用（稍后详细介绍），包括手机 App 或网站时，最重要的一件事就是选对模型，而 AI 公司往往把这个步骤搞得很复杂。如果只是聊天，默认模型没问题；但如果你想处理正经工作，默认模型就不够看了。在 ChatGPT 中，无论你用的是免费版还是付费版，默认给出的都是“ChatGPT 5.2”。问题在于，GPT-5.2 并不是一个单一的模型，而是一个系列，涵盖了从极弱的 GPT-5.2 mini 到优秀的 GPT-5.2 Thinking，再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时，实际上是在使用“自动”模式，AI 会自行决定调用哪个模型，而通常选的是性能较弱的那个。付费用户可以自主选择模型，而且更复杂的是，你还可以选择模型对答案的“思考”强度。处理复杂任务时，我总是手动选择 GPT-5.2 Thinking Extended（20 美元套餐）或 GPT-5.2 Thinking Heavy（更贵的套餐）。对于真正需要深度思考的难题，你可以选择 GPT-5.2 Pro，这是最强的模型，仅在更高等级的订阅中提供。

对于 Gemini，有三个选项：Gemini 3 Flash、Gemini 3 Thinking，以及某些付费方案中的 3 Pro。如果你订阅了 Ultra 方案，还可以使用处理极难问题的 Gemini Deep Think（它藏在另一个菜单里）。处理严肃问题时，请务必选择 Gemini 3 Pro 或 Thinking。至于 Claude，你需要选择 Opus 4.6（虽然新的 Sonnet 4.6 也很强大，但还是略逊一筹），并打开“extended thinking”（深度思考）开关。

再次重申，对大多数人来说，模型之间的差距已经缩小到一定程度，以至于应用和驱动架构比模型本身更重要。这引出了一个更大的课题。

绝大多数人通过聊天机器人（即 ChatGPT、Claude 和 Gemini 的主站或移动 App）来访问 AI 模型。事实上，聊天机器人可以被视为最重要、普及度最高的 AI 应用。但在过去的几个月里，这些应用之间已经出现巨大差异。

部分差异体现在 AI 捆绑的功能上：

这些功能确实让人眼花缭乱！对于大多数从事实际工作的人来说，最重要的附加功能是深度搜索（Deep Research）以及将 AI 与你的个人内容连接。不过，你可能也想尝试下其它功能。然而，日益凸显的重要性在于“架构”——即 AI 能够调用的工具。在这方面，OpenAI 和 Anthropic 明显比谷歌领先。Claude.ai 和 ChatGPT 都具备编写和执行代码、交付文件、进行深入调研等能力。相比之下，谷歌 Gemini 的网页端功能要弱得多（尽管其模型本身同样出色）。

如你所见，提出类似的问题，ChatGPT 和 Claude 能给出可用的表格和 PPT，并附带可供追溯的清晰引用。然而，Gemini 无法生成这两类文档，也不提供引用或研究支持。不过，我预计谷歌很快就会跟上。

关于聊天机器人的最后一点：GPT-5.2 Pro 配合其自带架构，是一个非常聪明的模型。它最近刚刚协助推导出了一个物理学方面的新发现，也是我认为在处理复杂统计和分析工作时最强的模型。该模型仅在更昂贵的套餐中提供。谷歌的 Gemini 3 Deep Think 似乎也很有实力，但同样受限于架构问题。

聊天机器人网站是大多数人与 AI 互动的地方，但那已不再是完成最令人惊叹的工作的场所。越来越多的其它应用将同样的模型封装在更强大的驱动架构中，这些应用至关重要。

Claude Code、OpenAI Codex 和 Google Antigravity 是其中发展最成熟的，它们都面向开发者。每一款应用都赋予了 AI 模型访问代码库、终端以及自主编写、运行和测试代码的能力。你只需描述想要构建的内容，AI 就会去执行，完成后或遇到卡点时再回来反馈。如果你以编程为生，这些工具正在改变你的职业生涯。即便你不会写代码，由于它们拥有最广泛的驱动架构，它们依然能完成惊人的工作量。

比方说，几年前，我曾对如何制作一个完全基于纸质的大语言模型感到好奇——即通过一套书籍展示 GPT-1 原始的所有内部权重和参数（AI 的代码，由 1.17 亿个数字组成）。理论上，只要时间充足，你可以通过这些数字手动完成 AI 的数学运算。这听起来是个有趣的念头，但显然不值得亲自动手。一周前，我让 Claude Code 帮我完成。在大约一小时里（主要是 AI 在工作，我只提了几个建议），它制作了 80 卷排版精美的书籍，包含了 GPT-1 的全部内容及数学运算指南。它还为每卷书设计并生成了将内部权重视觉化的封面。接着，它搭建了一个非常优雅的网站，接入了 Stripe 支付和 Lulu 按需印刷服务，测试了整个系统，并为我完成了上线。我从头到尾没碰过一行代码。我试着按成本价上架了 20 本，结果当天就卖光了。所有卷册目前在网站上仍有免费 PDF 可供下载。现在，我只需抛出一个原本需要大量工作的小项目构想，几乎不用费力，它就能帮我落地。

不过，编程架构对门外汉来说仍有风险，且其重心显然在编程上。新的应用和架构正开始向其它类型的知识工作领域拓展。

Excel 版和 PowerPoint 版的 Claude 是应用内特定架构的典型。它们都为这些程序提供了令人印象深刻的扩展功能。尤其是 Excel 版 Claude，它彻底改变了处理电子表格的方式。对于那些靠 Excel 吃饭的人来说，它的冲击力可能不亚于 Claude Code——你越来越多地只需告诉 AI 你的意图，它就会像个初级分析师一样把活儿干了。由于结果直接呈现在 Excel 中，检查起来也非常方便。谷歌与 Google Sheets 有一些集成（但深度稍逊），而 OpenAI 目前还没有真正的对标产品。

Claude Cowork 是一个真正的创新，值得单独列为一类。Anthropic 在 1 月份发布的 Cowork 本质上是针对非技术类工作的 Claude Code。它可以在桌面上运行，可以直接处理本地文件和浏览器。相对于 Claude Code，它安全性更高，对非技术用户也更友好（它在虚拟机中运行，内置了默认拒绝网络连接和硬隔离技术，如果你在意技术细节的话）。你只需描述一个目标（如“整理这些报销单”、“将这些 PDF 中的数据提取到表格中”、“起草一份摘要”），Claude 就会制定计划，将其分解为子任务，并在你眼前（或者在你忙别的时）在你的电脑上自动执行。它基于与 Claude Code 相同的智能体架构，且其本身很大程度上就是由 Claude Code 在两周内编写而成的。目前 OpenAI 和谷歌还没有直接的同类产品。Cowork 尚处于研究预览阶段，这意味着它还不成熟且极其消耗使用额度，但它明确预示了未来的方向：AI 不再只是和你聊聊工作，而是替你完成工作。

NotebookLM 是谷歌针对另一个问题，即“如何利用 AI 梳理海量信息”的答案你可以让 NotebookLM 进行自主深度研究，或者添加你自己的论文、YouTube 视频、网站或文件。它会构建一个交互式的知识库，你可以进行查询，将其转化为幻灯片、思维导图、视频，以及最为出名的——由两位 AI 主播讨论你素材的播客（你甚至可以打断主播提问）。如果你是学生、研究员，或者任何需要定期梳理大量文档的人，NotebookLM 都是一个极具价值的工具。

最后是 OpenClaw。虽然它不属于上述任何一类，且我几乎可以肯定你不该使用它，但我还是想提一下。OpenClaw 是一款在 1 月底走红的开源 AI 智能体。它在你的电脑本地运行，可以连接你想要的任何 AI 模型。你通过 WhatsApp 或 iMessage 等标准聊天工具与之对话，就像在和真人聊天。它可以浏览网页、管理文件、发送邮件和执行命令。它就像一个住在你机器里的全天候私人助理。但它也存在严重的安全风险：你给了 AI 极高的电脑和账户访问权限，没人知道你正暴露在什么样的危险之中。不过，它的确代表了未来的趋势。

我知道信息量很大，让我简化一下。

如果你刚刚入门，请从三大系统（ChatGPT、Claude 或 Gemini）中选一个，支付 20 美元，并选择高级模型。我书里的建议依然有效：让 AI 深度参与你所做的每一件事。开始用它处理实际工作。上传一份你正在处理的真实文档。以招标书或标准作业程序的形式给 AI 一个极其复杂的任务。进行反复对话并不断挑战它。光是这样做带给你的收获，就远超任何指南。

如果你已经对聊天机器人驾轻就熟，那就试试那些特定的应用。NotebookLM 免费且易上手，是一个很好的起点。如果你想更进一步，Anthropic 提供了最强大的全家桶：Claude Code、Claude Cowork（均可通过 Claude 桌面版访问），以及专门的 PowerPoint 和 Excel 插件。去尝试一下吧，但记住，不要只是试用 Demo，而是用它处理真实需求。观察它的操作，在它出错时进行修正。此时你已不再是在写提示词，而是在（正如我在上一篇文章中所写的）进行“管理”。

从聊天机器人向智能体的转变，是自 ChatGPT 发布以来 AI 使用方式上最重大的变革。目前尚处早期，这些工具依然难以捉摸，且仍会做出一些令人费解的事。但一个“能干活”的 AI 在根本上比一个“只会说”的 AI 更有价值，学会这样使用它绝对值得你投入精力。

译者：boxi。

智能体时代 AI 选择指南

相关推荐