2026年OpenAI 悄悄重写 Agents SDK：生产级 Agent 底座来了，LangChain 们还怎么活？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

900 页保险单 100% 提取，一半 PR 出自 Agent。你还在手动调 LangChain 吗？

很多人已经开始感觉到不对劲了。

三个月前，GPT-5.4 带着原生 computer use 登场，模型能直接操作电脑了。但开发者很快发现一个问题：模型能点能敲，可 Agent 到底跑在哪台机器上？怎么保证它不乱删文件？怎么让它跑几个小时不断线？

这些基建问题，还是得自己东拼西凑。

今晚，OpenAI 把这个缺口堵上了。

不是小修小补，是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具，外加七家沙盒厂商一键接入。

一句话：OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦，然后把基建层直接铺到了所有人脚下。

这篇文章，我们从工程视角拆三件事：

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了，可 Agent 跑在哪台电脑上？用自己笔记本？那跑几小时的任务怎么办？用云服务器？环境怎么配？权限怎么隔离？跑崩了从哪恢复？

这些问题，OpenAI 当时一个都没解决。

开发者只能自己拼：LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来，还没写业务逻辑，基建已经堆了上千行。

这不是个例。过去一年，几乎所有做长周期 Agent 的团队都在重复造同一个轮子：一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚，OpenAI 把这个轮子直接塞进了 SDK。

第一件：给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具（Codex 同款）、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单，熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的**实践，全部产品化塞进了 SDK。

第二件：把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里，负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒，专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥，也没有任何敏感数据。甚至可以断开网络，零对外流量。

这不是安全加固。这是架构范式的迁移。

本质是：OpenAI 不再只卖模型推理，开始卖 Agent 的生产级运行底座。

Manifest：一份配置清单，解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置：要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是，Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent，明天想换 Modal 跑，不改代码，只改一行配置。

官方给了最小示例，让一个 Agent 跑进本地沙盒，挂载财报目录，对比两年的财务指标，核心代码不到 20 行。

快照与状态恢复：掉线续命

长跑任务最怕什么？沙盒容器挂了，所有进度丢失，从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半，整个状态序列化保存。沙盒崩了，从最近检查点恢复，继续跑。

这不是 checkpoint 回调，是原生内建。

多沙盒并行 + 子 Agent 隔离：分身作战

一个任务拆成十个子任务，十个子任务分别跑在十个独立沙盒里，互不干扰。每个子 Agent 有自己的隔离环境，主 Agent 负责协调和汇总。

扩展性问题，原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

案例一：900 页保险理赔记录，100% 提取

FurtherAI CTO 披露，他们的 Agent 啃下了一份 900 多页的保险理赔记录，提取成功率 100%。保险业的人知道，这是业内最难啃的文档之一，以前跑到某一页崩掉是常态。

案例二：公司一半 PR 出自 Agent

Modal 技术团队成员透露，Ramp 已经用 Modal 跑了一支后台编码 Agent 大军，公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露，内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点：在拿到成熟 Agent 基建之后，业务团队的生产力出现了断层式跃迁。

案例三：代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字：相同能力的 Agent，这次需要的代码量比以前少了 6 倍。

案例四：发票对账，第一轮就跑通

Box 开发者关系负责人传了一份业务数据，配上 bash/python 作为工具，让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事：以前只有头部公司才能攒出来的 Agent 基建，现在变成了 SDK 里开箱即用的默认配置。

启示一：不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用，OpenAI 已经给出了官方实现。自己写的版本，大概率没有官方稳定，也没有官方迭代快。

除非你有极其特殊的编排需求，否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二：沙盒选型变成配置问题

以前，选沙盒意味着改代码。换了沙盒供应商，工具调用层要重写。现在，Manifest 一层抽象，沙盒选型变成改一行配置。

建议：本地开发用 UnixLocalSandboxClient，测试用 E2B，生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近，就切到哪家。

启示三：长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题，一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照，建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加，是架构上就依赖它。

下面这张图概括了新的 Agent 架构：

图片

核心变化：Harness 管脑子，Sandbox 管手脚。中间用 Manifest 解耦。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架，过去一年靠什么活着？靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作，这些都是第三方的主战场。

现在，OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复，Manifest 原生支持工具和沙盒管理，快照原生支持状态持久化。

第三方框架的空间，被压缩到两个方向：

另外，OpenAI 口中的「兼容所有沙盒服务商」，本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴，明天可能就是「组件供应商」。

当然，目前还不完美。新能力首发只上了 Python，TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台，Agents SDK 给它配齐了真正的运行环境。下一步缺的，只是更多开发者把业务逻辑搭在这个基建之上。

学社围绕现代软件测试工程体系展开，内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设，包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设，同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法，沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外，学社还参与测试工程人才培养体系建设，面向高校提供测试实训平台与实践支持，组织开展 “火焰杯” 软件测试相关技术赛事，并探索以能力为导向的人才培养模式，包括高校学员先学习、就业后付款的实践路径。

同时，学社结合真实行业需求，为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务，用于个性化能力提升与工程实践指导。

2026年OpenAI 悄悄重写 Agents SDK：生产级 Agent 底座来了，LangChain 们还怎么活？

相关推荐