2026年追寻历史的足迹:刚刚,谷歌发布了Gemini3.1Pro,在ARC

追寻历史的足迹:刚刚,谷歌发布了Gemini3.1Pro,在ARC刚刚 谷歌发布了 Gemini3 1Pro 在 ARC AGI 2 抽象推理基准上 它从 Gemini3Pro 的 31 1 直接上升到了 77 1 整整翻了一倍多 人类第一次在这个测试里看到这样惊人的提升 1 ARC AGI 2 抽象推理的质变测的是模型在没碰到过的视觉推理任务上推广能力的 ARC AGI 2 Gemini3 1Pro 拿到了 77 1 而 3Pro 仅仅有 31 1 GPT 4o 也才 62

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



刚刚,谷歌发布了Gemini3.1Pro,在ARC-AGI-2抽象推理基准上, 它从Gemini3Pro的31.1%直接上升到了77.1%,整整翻了一倍多,人类第一次在这个测试里看到这样惊人的提升。

1.ARC-AGI-2,抽象推理的质变
测的是模型在没碰到过的视觉推理任务上推广能力的ARC-AGI-2,Gemini3.1Pro拿到了77.1%,而3Pro仅仅有31.1%,GPT-4o也才62.3%,这就意味着模型真正开始拥有「跟人一样看问题、找规律」的能力了, 不再单单是模式匹配,这翻了一倍多。
2.GPQADiamond,科学推理的最高水平

GPQADiamond,检测的是博士级科学问题的推理能力,Gemini3.1Pro以94.3%的成绩,远远地把3Pro的91.9%以及GPT-4o的87.2%抛在后面。这就意味着,在科研辅助、复杂学术问题分析这类场景中, 模型已经能够去承担更专业的角色,直接就把最高分给抢过来了。

3.SWE-BenchVerified,代码修复的真本事
SWE-BenchVerified,检测的是模型修复真实GitHub代码库bug的能力,Gemini3.1Pro得到了80.6%,和3Pro的76.2%以及GPT-4o的78.1%对比。这就意味着在实际开发工作之中,模型可以更精准地找到问题、给出能落地的修复方案, 程序员的免费神器又得到了升级。

生态落地,API与定价
这次发布同时对GeminiAPI进行了更新, 新增加了两个硬核功能,其一为Agent团队协作模式,能够支持多智能体一起处理复杂任务,其二是长上下文支持扩展到200万Token,把整本书放进去分析一点压力都没有。

定价方面,Gemini3.1Pro和上一版保持一样,输入是3.5/百万Token, 输出是10.5/百万Token#谷歌新模型# #谷歌研究#









































小讯
上一篇 2026-03-10 11:56
下一篇 2026-03-10 11:58

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211107.html