2026年GPT-5.3-Codex刷新多项AI编程基准成绩

科技前沿 • 2026-03-12 21:36 • 阅读 0
大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 <p cms-style="font-L">　　<font cms-style="font-L strong-Bold color30">AIPress.com.cn报道</font></p><p cms-style="font-L">　　OpenAI 近日正式发布 GPT-5.3-Codex，这是其迄今为止最先进的代码专用 AI 代理模型。OpenAI 表示，该模型在性能与响应速度上均较上一代 GPT-5.2-Codex 实现显著提升，面向专业软件开发和工程级工作流设计。</p><p cms-style="font-L">　　在性能方面，GPT-5.3-Codex 在多项权威基准测试中取得新纪录。在 SWE-bench Pro（Public）测试中，该模型准确率达到 56.8%。该基准主要用于评估模型在多语言软件工程任务中的综合能力，被视为衡量代码代理实用性的核心指标之一。</p><p cms-style="font-L">　　提升最为明显的体现在 Terminal-Bench 2.0 上。这一基准重点评估模型在终端环境中执行命令、完成系统级操作的能力。GPT-5.3-Codex 在该测试中的成绩从上一代的 64.0% 提升至 77.3%，显示其在真实开发环境下的操作稳定性和执行准确性明显增强。</p><p cms-style="font-L">　　此外，在 OSWorld-Verified 基准测试中，GPT-5.3-Codex 取得 64.7% 的成绩。该测试衡量模型结合计算机视觉完成桌面级任务的能力，其得分已接近人类平均水平（72%），并显著高于上一代模型的 38.2%。</p><div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/337/w1109h828//65c2-40098bc2cce2dd.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="1109" h="828" wh="1.34"/></div><p cms-style="font-L">　　在产品功能上，OpenAI 为 Codex 应用引入了新的“指导（guidance）”能力，使开发者可以在模型执行复杂工程任务的过程中进行实时交互，包括调整方向、补充信息以及协同调试。这一机制旨在避免传统代码生成过程中上下文中断的问题，使模型更贴近真实开发协作流程。</p><p cms-style="font-L">　　在底层基础设施方面，GPT-5.3-Codex 的训练和部署运行在 NVIDIA GB200 NVL72 系统之上。OpenAI 表示，该系统体现了其与 NVIDIA 的协同设计成果，重点优化推理性能，并在复杂任务中降低 token 使用成本。</p><p cms-style="font-L">　　在安全与合规层面，OpenAI 在其 Preparedness Framework 中将 GPT-5.3-Codex 归类为“高能力（High Capability）”模型，尤其是在生物安全和网络安全相关任务中。该模型接受了针对软件漏洞识别的专项训练，并配套实施了更严格的自动化监控机制和受控访问策略，用于防御性研究用途。</p><p cms-style="font-L">　　整体来看，GPT-5.3-Codex 被 OpenAI 视为从“代码助手”向“自主工程代理”转变的重要节点，其核心特征包括更低延迟、更强的多语言工程能力，以及跨环境执行复杂任务的能力。（AI普瑞斯编译）</p> <div style="font-size: 0px; height: 0px; clear: both;"></div>
2026年GPT-5.3-Codex刷新多项AI编程基准成绩

相关推荐