2026年N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名p style margin left 0 margin right 0 text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

【导语:N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成,扫描 1000 个安全公告,公布了各模型的平均得分等数据。】


序号1

N - Day 基准测试:衡量语言模型网络安全能力

N - Day 基准测试由 Winfunc Research 发起,旨在衡量大型语言模型(LLM)的实际网络安全能力,特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文,杜绝作弊。该测试具有适应性,测试用例会每月更新,模型集也会升级到最新版本和检查点,且所有记录都可公开浏览。

序号2

最新测试结果:各模型表现大揭秘

最新基准测试已完成,扫描了 1000 个安全公告,接受案例 47 个,跳过案例 953 个。在平均得分排行榜中,openai/gpt - 5.4 以 83.93 分位居榜首,z - ai/glm - 5.1 以 80.13 分紧随其后,anthropic/claude - opus - 4.6 得 79.95 分,moonshotai/kimi - k2.5 为 77.18 分,google/gemini - 3.1 - pro - preview 则是 68.50 分。

从发现模型的数据来看,z - ai/glm - 5.1 提交 44 次,平均发现数为 1.23;openai/gpt - 5.4 提交 44 次,平均发现数 1.07;anthropic/claude - opus - 4.6 提交 43 次,平均发现数 1.16;moonshotai/kimi - k2.5 提交 37 次,平均发现数 1.05;google/gemini - 3.1 - pro - preview 提交 44 次,平均发现数 0.91。

序号3

测试运行详情:时间与状态全知晓

此次测试创建时间为 2026 年 4 月 13 日下午 5:03,开始时间与之相同,完成时间是晚上 8:53,且无失败情况。近期还有多条评判运行和发现运行的记录公布。

编辑观点: N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考,不同模型得分和表现差异反映其在漏洞发现能力上的差距,将推动模型研发的优化和竞争。




小讯
上一篇 2026-04-21 13:23
下一篇 2026-04-21 13:21

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261885.html