2026年OpenAI 推出了 GPT-5.4，这是专为专业工作打造的新一代旗舰模型。

科技前沿 • 2026-03-12 18:52 • 阅读 16

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

OpenAI 正式发布了新一代基础模型 GPT-5.4，把它定位为“迄今为止最强大、最高效、专为专业工作打造的前沿模型”。除了标准版，OpenAI 还同时推出了两个变体：一个是强调复杂推理能力的 GPT-5.4 Thinking，另一个是面向高性能应用场景的 GPT-5.4 Pro。

在能力方面，GPT-5.4 的 API 版本支持最高 100 万 token 的上下文窗口，远远超过 OpenAI 之前所有模型，特别适合处理长文档、复杂项目或多轮任务这类需要长链条推理的工作流。OpenAI 还特别提到，新模型在 token 使用效率上有明显提升——完成和上一代模型同样难度的任务，用的 token 少得多，这也就意味着成本更低、响应更快。

最新基准测试显示，GPT-5.4 在多个权威评测中大幅领先：它在 OSWorld-Verified 和 WebArena Verified 这两个“电脑操作”类测试中刷新了纪录，还在 OpenAI 自家的知识工作评估集 GDPval 上拿下了 83% 的最高分。在由初创公司 Mercor 设立、专门针对法律和金融等专业技能的 APEX-Agents 基准测试中，GPT-5.4 也排在第一。

Mercor 的 CEO Brendan Foody 在声明中说，GPT-5.4 在产出长周期成果方面特别强，比如做演示文稿、搭财务模型、写法律分析这些活儿，“不仅表现顶尖，还比其他前沿模型更快、更便宜”。

在可靠性上，GPT-5.4 继续沿着 OpenAI 减少“幻觉”和事实错误的方向优化。官方内部评估显示，相比 GPT-5.2，新模型在单条陈述中出错的概率降低了 33%，整个回答里出现错误内容的概率也下降了 18%。

这次发布还带来一个重要的 API 变动：OpenAI 推出了叫 Tool Search 的新工具调用机制。以前的做法是，系统提示里得一次性塞进所有可用工具的定义，工具一多，光这部分就吃掉大量 token。现在有了 Tool Search，模型可以按需查询工具定义，在工具数量大的系统里，能显著减少开销，让调用更快、更省钱。

在安全性和可控性方面，OpenAI 这次新增了一套安全评估，专门测试模型在多步任务中的“思维链”（chain-of-thought）表现。研究者一直担心，有推理能力的模型可能在思考过程中“伪装”或隐藏真实思路，而且已有研究证明这种情况确实可能发生。不过 OpenAI 的新评估结果显示，在 GPT-5.4 Thinking 版本中，这种“欺骗性”行为出现的概率更低了——“这说明模型并没有主动隐藏推理过程的能力，思维链监控仍然是有效的安全手段”。

通过同步推出 GPT-5.4、GPT-5.4 Pro 和 GPT-5.4 Thinking，OpenAI 显然是想在专业生产力、成本效率和安全可控之间找到一个新的平衡点，把大模型更深地推进到法律、金融和知识工作这些高价值场景里去。

2026年OpenAI 推出了 GPT-5.4，这是专为专业工作打造的新一代旗舰模型。

相关推荐