OpenAI 正式发布 GPT-5.5,一款面向 AI 智能体场景的新一代大语言模型。
它的核心能力,是完成多阶段、跨工具的复杂任务闭环——从代码编写、Bug 排查,到全网检索、数据分析,再到文档撰写、软件操作,无需人工分步引导,就能自主完成路径规划、工具调用、结果校验,处理需求边界模糊的跨界任务。
这次升级的核心增强,主要集中在智能体编程、设备操作、知识工作与前沿科学研究 4 大领域——这些场景的共性,是对长上下文推理、持续决策与执行能力的极高要求。
行业长期存在一个共识:模型能力的提升,往往伴随推理延迟的增加。但 GPT-5.5 打破了这个规律:在真实服务场景中,它单 Token 输出延迟与 GPT-5.4 完全持平,完成同等难度的 Codex 任务时,Token 消耗量显著下降,实现了能力与效率的同步提升。
OpenAI 正在搭建面向 AI 智能体的全球基础设施。过去一年,AI 已经深刻改变了软件工程的工作流;而随着 GPT-5.5 接入 Codex 与 ChatGPT,这种改变正在延伸至科研、日常办公等更多场景。
在这些场景中,GPT-5.5 展现出了更高的问题解决效率——它只需要更低的 Token 消耗与更少的重试次数,就能完成更高质量的任务交付。根据 Artificial Analysis 发布的编码指数,GPT-5.5 以竞品一半的算力成本,实现了当前业内顶尖的编码能力表现。
GPT-5.5 是 OpenAI 目前能力最强的编程模型,并在 3 大主流编程基准上完成了横向测试:
三项测试中,GPT-5.5 不仅刷新了前代模型的跑分纪录,还极大降低了完成任务所需的 Token 消耗量。
这种能力在 Codex 场景中得到了充分落地。它可以独立完成代码开发、重构、Bug 调试、测试验证等全栈工程任务。早期测试结果显示,GPT-5.5 能够精准把握大型系统的上下文关联,从模糊的报错信息中定位核心问题,熟练调用工具验证假设,并保证代码改动与现有系统的兼容性。
GPT-5.5 基于多步推理的任务处理能力,同样适用于日常办公场景。它能够准确理解用户的核心需求,完成从资料查阅、信息提取、工具调用、结果校验到最终内容输出的全流程工作,将碎片化信息整合为结构化的高价值内容。
在 Codex 环境下,GPT-5.5 在文档撰写、表格制作、幻灯片排版等任务上的表现,显著优于 GPT-5.4。有早期测试用户反馈,无论是运筹学问题求解、财务模型搭建,还是将零散的业务需求转化为结构化方案,GPT-5.5 的完成质量都有代际提升。结合 Codex 的计算机操控能力,GPT-5.5 能够识别屏幕内容、完成鼠标点击与键盘输入,在不同软件的 UI 界面之间自主切换,完成跨应用的复杂操作。
这套能力已经在 OpenAI 内部实现了规模化落地。目前,公司超 85% 的员工每周都会重度使用 Codex,覆盖软件研发、财务审计、公关营销、数据科学、产品管理等多个部门:
在 ChatGPT 端,GPT-5.5 Thinking 实现了更快的响应速度与更精简的答案输出,能够帮助用户高效处理复杂工作;挂载插件后,可完成编程、科研、情报搜集、长文档分析等重度专业任务。
面向高阶用户的 GPT-5.5 Pro,在高难度复杂任务上的完成质量有显著提升,同时保持了极低的推理延迟,可满足严苛的生产力场景需求。测试结果显示,相比 GPT-5.4 Pro,GPT-5.5 Pro 的输出逻辑更严谨、内容更周密、冗余信息更少,在商业分析、法律咨询、教育科研、数据科学等领域的表现尤为突出。
GPT-5.5 在多项知识工作基准测试中取得了行业领先的成绩:
前沿科研的核心,是多轮迭代的试错流程:提出假说、搜集证据、验证猜想、解读数据,最终确定下一步研究方向。GPT-5.5 在这类需要长链条推理、持续修正判断的场景中,表现显著优于现有模型。
最具代表性的结果,来自 GeneBench 基准测试——这是一项针对遗传学与定量生物学多阶段复杂数据分析的专项考核,要求模型在近乎零人工干预的前提下,处理含噪声、有歧义的真实科研数据,规避数据干扰项与质控陷阱,最终完成符合统计学规范的分析与结论输出。这类任务通常需要顶尖人类专家数天的工作量,GPT-5.5 在该基准上的表现,相比 GPT-5.4 实现了代际提升。
在面向真实生物信息学场景的 BixBench 基准中,GPT-5.5 也取得了当前已公开模型中的最优成绩。
另一个核心案例是,搭载专属测试组件的 GPT-5.5 内部版本,协助数学家完成了拉姆齐数相关的全新证明。拉姆齐数是组合数学领域的核心研究方向,聚焦图、网络、集合等离散对象的内在规律,相关成果产出难度极高。GPT-5.5 完成了非对角线拉姆齐数长期渐近特性的证明,且该证明在 Lean 环境中通过了完整验证。这意味着,GPT-5.5 不仅能完成代码实现类工作,还能在基础数学领域完成严谨、规范的学术论证。
有 ChatGPT 端的 GPT-5.5 Pro 早期用户反馈,该模型更像一个专业的科研协作伙伴,能够完成手稿打磨、技术论证校验、分析方案推演,同时处理大规模的代码、笔记与 PDF 文献数据,实现了从学术猜想到实验验证的全流程辅助。
- GPT-5.5 现已全面开放给 ChatGPT 与 Codex 的 Plus、Pro、Business、Enterprise 用户;GPT-5.5 Pro 同步向 ChatGPT 的 Pro、Business、Enterprise 用户开放。
- ChatGPT 端,Plus 及以上订阅用户现可使用 GPT-5.5 Thinking 模式;面向高难度、高稳定性需求场景的 GPT-5.5 Pro,目前仅对 Pro 及以上订阅用户开放。
- 开发者端,
gpt-5.5将于近期上线 Responses 与 Chat Completions API,具体计费标准如下:
尽管 GPT-5.5 的标准计费单价高于 GPT-5.4,但得益于任务完成效率的提升与 Token 消耗量的下降,绝大多数用户在获得更高质量输出的同时,整体使用成本并不会明显上升。现有各订阅层级的使用配额保持不变。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282871.html