2026年OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?900 页保险单 100 提取 一半 PR 出自 Agent 你还在手动调 LangChain 吗 很多人已经开始感觉到不对劲了 三个月前 GPT 5 4 带着原生 computer use 登场 模型能直接操作电脑了 但开发者很快发现一个问题 模型能点能敲 可 Agent 到底跑在哪台机器上 怎么保证它不乱删文件 怎么让它跑几个小时不断线 这些基建问题 还是得自己东拼西凑 今晚

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



900 页保险单 100% 提取,一半 PR 出自 Agent。你还在手动调 LangChain 吗?

很多人已经开始感觉到不对劲了。

三个月前,GPT-5.4 带着原生 computer use 登场,模型能直接操作电脑了。但开发者很快发现一个问题:模型能点能敲,可 Agent 到底跑在哪台机器上?怎么保证它不乱删文件?怎么让它跑几个小时不断线?

这些基建问题,还是得自己东拼西凑。

今晚,OpenAI 把这个缺口堵上了。

不是小修小补,是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具,外加七家沙盒厂商一键接入。

一句话:OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦,然后把基建层直接铺到了所有人脚下。

这篇文章,我们从工程视角拆三件事:

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了,可 Agent 跑在哪台电脑上?用自己笔记本?那跑几小时的任务怎么办?用云服务器?环境怎么配?权限怎么隔离?跑崩了从哪恢复?

这些问题,OpenAI 当时一个都没解决。

开发者只能自己拼:LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来,还没写业务逻辑,基建已经堆了上千行。

这不是个例。过去一年,几乎所有做长周期 Agent 的团队都在重复造同一个轮子:一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚,OpenAI 把这个轮子直接塞进了 SDK。

第一件:给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具(Codex 同款)、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单,熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的**实践,全部产品化塞进了 SDK。

第二件:把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里,负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒,专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥,也没有任何敏感数据。甚至可以断开网络,零对外流量。

这不是安全加固。这是架构范式的迁移。

本质是:OpenAI 不再只卖模型推理,开始卖 Agent 的生产级运行底座。

  1. Manifest:一份配置清单,解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置:要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是,Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent,明天想换 Modal 跑,不改代码,只改一行配置。

官方给了最小示例,让一个 Agent 跑进本地沙盒,挂载财报目录,对比两年的财务指标,核心代码不到 20 行。

  1. 快照与状态恢复:掉线续命

长跑任务最怕什么?沙盒容器挂了,所有进度丢失,从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半,整个状态序列化保存。沙盒崩了,从最近检查点恢复,继续跑。

这不是 checkpoint 回调,是原生内建。

  1. 多沙盒并行 + 子 Agent 隔离:分身作战

一个任务拆成十个子任务,十个子任务分别跑在十个独立沙盒里,互不干扰。每个子 Agent 有自己的隔离环境,主 Agent 负责协调和汇总。

扩展性问题,原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

案例一:900 页保险理赔记录,100% 提取

FurtherAI CTO 披露,他们的 Agent 啃下了一份 900 多页的保险理赔记录,提取成功率 100%。保险业的人知道,这是业内最难啃的文档之一,以前跑到某一页崩掉是常态。

案例二:公司一半 PR 出自 Agent

Modal 技术团队成员透露,Ramp 已经用 Modal 跑了一支后台编码 Agent 大军,公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露,内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点:在拿到成熟 Agent 基建之后,业务团队的生产力出现了断层式跃迁。

案例三:代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字:相同能力的 Agent,这次需要的代码量比以前少了 6 倍。

案例四:发票对账,第一轮就跑通

Box 开发者关系负责人传了一份业务数据,配上 bash/python 作为工具,让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事:以前只有头部公司才能攒出来的 Agent 基建,现在变成了 SDK 里开箱即用的默认配置。

image

启示一:不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用,OpenAI 已经给出了官方实现。自己写的版本,大概率没有官方稳定,也没有官方迭代快。

除非你有极其特殊的编排需求,否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二:沙盒选型变成配置问题

以前,选沙盒意味着改代码。换了沙盒供应商,工具调用层要重写。现在,Manifest 一层抽象,沙盒选型变成改一行配置。

建议:本地开发用 UnixLocalSandboxClient,测试用 E2B,生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近,就切到哪家。

启示三:长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题,一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照,建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加,是架构上就依赖它。

下面这张图概括了新的 Agent 架构:

图片

核心变化:Harness 管脑子,Sandbox 管手脚。中间用 Manifest 解耦。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架,过去一年靠什么活着?靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作,这些都是第三方的主战场。

现在,OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复,Manifest 原生支持工具和沙盒管理,快照原生支持状态持久化。

第三方框架的空间,被压缩到两个方向:

另外,OpenAI 口中的「兼容所有沙盒服务商」,本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴,明天可能就是「组件供应商」。

当然,目前还不完美。新能力首发只上了 Python,TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台,Agents SDK 给它配齐了真正的运行环境。下一步缺的,只是更多开发者把业务逻辑搭在这个基建之上。

image

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。

小讯
上一篇 2026-04-17 20:47
下一篇 2026-04-17 20:45

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268177.html