OpenAI 正式发布了新一代基础模型 GPT-5.4,把它定位为“迄今为止最强大、最高效、专为专业工作打造的前沿模型”。除了标准版,OpenAI 还同时推出了两个变体:一个是强调复杂推理能力的 GPT-5.4 Thinking,另一个是面向高性能应用场景的 GPT-5.4 Pro。
在能力方面,GPT-5.4 的 API 版本支持最高 100 万 token 的上下文窗口,远远超过 OpenAI 之前所有模型,特别适合处理长文档、复杂项目或多轮任务这类需要长链条推理的工作流。OpenAI 还特别提到,新模型在 token 使用效率上有明显提升——完成和上一代模型同样难度的任务,用的 token 少得多,这也就意味着成本更低、响应更快。
最新基准测试显示,GPT-5.4 在多个权威评测中大幅领先:它在 OSWorld-Verified 和 WebArena Verified 这两个“电脑操作”类测试中刷新了纪录,还在 OpenAI 自家的知识工作评估集 GDPval 上拿下了 83% 的最高分。在由初创公司 Mercor 设立、专门针对法律和金融等专业技能的 APEX-Agents 基准测试中,GPT-5.4 也排在第一。
Mercor 的 CEO Brendan Foody 在声明中说,GPT-5.4 在产出长周期成果方面特别强,比如做演示文稿、搭财务模型、写法律分析这些活儿,“不仅表现顶尖,还比其他前沿模型更快、更便宜”。
在可靠性上,GPT-5.4 继续沿着 OpenAI 减少“幻觉”和事实错误的方向优化。官方内部评估显示,相比 GPT-5.2,新模型在单条陈述中出错的概率降低了 33%,整个回答里出现错误内容的概率也下降了 18%。
这次发布还带来一个重要的 API 变动:OpenAI 推出了叫 Tool Search 的新工具调用机制。以前的做法是,系统提示里得一次性塞进所有可用工具的定义,工具一多,光这部分就吃掉大量 token。现在有了 Tool Search,模型可以按需查询工具定义,在工具数量大的系统里,能显著减少开销,让调用更快、更省钱。
在安全性和可控性方面,OpenAI 这次新增了一套安全评估,专门测试模型在多步任务中的“思维链”(chain-of-thought)表现。研究者一直担心,有推理能力的模型可能在思考过程中“伪装”或隐藏真实思路,而且已有研究证明这种情况确实可能发生。不过 OpenAI 的新评估结果显示,在 GPT-5.4 Thinking 版本中,这种“欺骗性”行为出现的概率更低了——“这说明模型并没有主动隐藏推理过程的能力,思维链监控仍然是有效的安全手段”。
通过同步推出 GPT-5.4、GPT-5.4 Pro 和 GPT-5.4 Thinking,OpenAI 显然是想在专业生产力、成本效率和安全可控之间找到一个新的平衡点,把大模型更深地推进到法律、金融和知识工作这些高价值场景里去。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/214936.html