2026年OpenAI新款GPT-5.4在专业测试中超越83%人类专家

科技前沿 • 2026-03-11 16:11 • 阅读 24

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 <p>OpenAI近日推出了最新的GPT-5.4思维模型，仅在GPT-5.2发布不到三个月后。该模型被誉为处理复杂专业工作最强大的工具，在最新的测试中显示出卓越性能，令人瞩目的是，GPT-5.4在83%的情况下能够匹配或超越人类专业人士的工作表现。这一比例较其前身GPT-5.2的70.9%有显著提升。</p><p>GPT-5.4的整体表现得到了显著改善，错误率降低了18%，在用户标记的事实错误提示中，单个虚假声明的概率降低了33%。这表明，该人工智能在生成虚假内容方面的能力大幅减弱。</p><p>OpenAI在9月推出了名为GPTval的新评估测试，专门用于衡量AI模型在“具有经济价值的真实世界任务”中的表现。该测试涵盖了9个行业和44个职业，选择这些行业的标准是其对美国国内生产总值贡献5%或以上。每个行业都有独特的职业类别，测试任务由资深专业人士设计，以反映他们的日常工作内容，并经过多轮专家审查。</p><p>例如，制造工程师的任务之一是设计夹具，以简化地下采矿作业中的电缆卷轴收放操作。所有任务的评分由各职业的人类专业人士完成，评分者在评分时并不知道结果来自AI还是其他专业人士。</p><p>沃顿商学院生成式AI实验室副教授Ethan Mollick对GPTval测试表示高度认可，称其为“最具经济相关性的AI能力衡量标准”。GPT-5.1在11月发布时的GPTval得分为38.8%，而12月发布的GPT-5.2则几乎翻了一番，达到70.9%。如今，GPT-5.4在3月初的表现更是达到了83%的胜率，显示出惊人的进步。</p><p>这一成就可能对未来的工作产生深远影响。一方面，GPT-5.4可以作为专业人士的增强工具，提高工作效率；另一方面，它也可能成为高价值、高技能工作中取代人类的预兆。Walleye Capital的人工智能解决方案负责人Daniel Swiecki表示，GPT-5.4在金融和Excel评估中超越了之前的模型，准确性提高了30个百分点。</p><p>随着这一技术的不断发展，专业人士需要学会适应并利用这些工具，无论是作为工作助手，还是作为竞争对手。虽然OpenAI为其最新成果感到自豪，但那些依靠专业技能谋生的人也面临着深刻的思考与担忧。</p>

GPT plus 代充只需 145

2026年OpenAI新款GPT-5.4在专业测试中超越83%人类专家

相关推荐