2026年GPT-5.5降临:性能跃升、效率翻倍,如何打破模型升级铁律?

GPT-5.5降临:性能跃升、效率翻倍,如何打破模型升级铁律?p style margin left 0 margin right 0 text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

GPT-5.5正式登场

GPT-5.5刚刚降临,官方将其定位为“一种面向实际工作和智能体的新型智能”。此次奥特曼未亲自表态,而是请了一群早期测试用户作为嘴替。其中一名英伟达工程师在早期测试结束后短暂失去GPT-5.5访问权限,他表示“失去GPT-5.5,就像被截肢”。

OpenAI与英伟达的深度合作

OpenAI与英伟达此次合作前所未有。一是GPT-5.5和英伟达GB200、GB300 NVL72系统联合设计,从训练到部署,模型和硬件双向奔赴;二是推广Codex到英伟达全公司,奥特曼还晒出与老黄的邮件。

GPT-5.5的性能提升

与GPT5.4相比,GPT-5.5在代码、知识工作、科学研究三个领域均有进步。从综合测试Artificial Analysis Intelligence Index结果来看,它获得相同分数比Claude Opus 4.7等模型消耗token更少,或消耗同样token完成任务更多。更重要的是,它打破了模型升级“更强更慢”的铁律,在真实生产环境中,逐token延迟与GPT-5.4相当,完成相同任务所需token比GPT5.4少,效率更高、功能更强大(但价格翻倍)。

编程领域的显著提升

截至发稿,Codex更新最新版已可使用GPT-5.5,上下文窗口升级到400K。编程是GPT-5.5提升最明显的领域,上一代模型编程需小心翼翼拆任务、随时纠偏,而GPT-5.5可自行拆解、执行和检查任务。OpenAI展示了Codex下GPT-5.5生成的3D动作游戏,在网页上直接运行。在Terminal - Bench 2.0测试中,GPT-5.5拿到82.7%,高于GPT-5.4的75.1%和Claude Opus 4.7的69.4%。早期测试者Dan Shipper的实验也表明,GPT-5.5能独立做出和顶尖工程师一样的决策,高级工程师反馈其在推理和自主性上强于GPT-5.4和Claude Opus 4.7。

知识工作和科学研究领域的拓展

GPT-5.5在知识工作和科学研究领域也有能力跃迁。在知识工作基准测试GDPval上,GPT-5.5拿到84.9%,比Claude Opus 4.7高出4.6个百分点;在FrontierMath Tier 4测试上,GPT-5.5 Pro拿下39.6%,Claude Opus 4.7是22.9%。科学家们也开始利用它进行研究,如波兰亚当·密茨凯维奇大学的数学助理教授Bartosz Naskręcki用一句话让代数几何可视化应用11分钟跑起来;杰克逊基因组医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析基因表达数据集,产出完整研究报告,原本这要花团队几个月时间。OpenAI认为GPT-5.5更像一个“研究伙伴”,早期测试者用它进行多轮批改论文、挑论证漏洞等工作。

数学领域的重大突破

GPT-5.5在数学领域也有重大成果。它找到了Ramsey数(组合数学核心问题之一)的新证明路径,该证明被数学界严格的形式化验证工具Lean确认无误,这意味着AI在纯数学核心领域做出了被验证的原创贡献。

“更强却更快”的秘密

“更强却更快”是因为OpenAI推倒重来了整个推理系统。GPT-5.5与英伟达相关系统联合设计,使智能水平大幅跃升。同时,GPT-5.5驱动的Codex系统分析数周生产流量数据,写出负载均衡的分区启发式算法,根据实际流量动态调整分块策略,token生成速度提升超20%。推理系统重构和模型参与自身优化共同带来了这样的结果,OpenAI称这是“迈向用计算机完成工作的新方式的一步”。但当模型开始优化自身运行基础设施,这一步到底迈了多远?

未来模型发布展望

有了GPT-5.5,OpenAI预计接下来模型发布数据将加快。首席科学家Jakub Pachocki在与记者的电话会议上表示,短期内有显著进步,中期有极其显著的进步,但他认为过去几年进展出乎意料地缓慢。

小讯
上一篇 2026-04-26 15:44
下一篇 2026-04-26 15:42

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/281374.html