刚刚,xAI发布了Gtok3,计算能力是上一代的足足10倍,并且第一次引入了图像分析和问答功能, 这不是迭代,而是直接换了台发动机。
全景对比
1.AIME数学推理,直接厉害到没话说
AIME2025,检测的是模型在复杂数学问题上的深度推理能力,Gtok3拿到了92.3%,而Gtok2只有68.5%, 这简直……提高了差不多24个百分点
这就意味着,在科研计算、金融建模、工程验证这类场景之中, 模型可以自己完成过去得依靠人类专家参与的多步推导,错误率大大降低。
2.代码生成,那可是像碾压一样的超越
在HumanEval代码测试中,Gtok3的得分是96.2%, 和Gtok2的82.1%对比,直接就把最高分给抢过来了。
这说明开发者能用自然语言描述更复杂的需求,模型一次性生成能运行代码的概率几乎是百分之百, 自己弄的门槛完全被消除了。
3.视觉理解,总算是不再是瞎的情况了
Grok系列第一次加入图像分析
在ChartQA图表理解测试中,Gtok3的准确率是89.4%,和GPT-4o的90.1%差不多, 不过响应速度快了40%。
这就意味着,你可以直接把一张财报截图、一张工程图纸, 甚至一张手写草稿扔给它,它能够马上提取关键信息并且还能回应追问,免费使用视觉助理的时代,确实已经到来了。
–
生态落地
API同步更新了,新增了Agent团队协作模式, 能够支持好几个Gtok3实例一起处理复杂任务,长上下文支持扩展到128KToken了,整本书放进去都能记得住。
定价,是保持不变的,输入是5/百万Token, 输出是15/百万Token,从当下起在X平台以及xAI开发者中心全面开放,Premium+用户可以优先体验。
全景对比
1.AIME数学推理,直接厉害到没话说
AIME2025,检测的是模型在复杂数学问题上的深度推理能力,Gtok3拿到了92.3%,而Gtok2只有68.5%, 这简直……提高了差不多24个百分点
这就意味着,在科研计算、金融建模、工程验证这类场景之中, 模型可以自己完成过去得依靠人类专家参与的多步推导,错误率大大降低。
2.代码生成,那可是像碾压一样的超越
在HumanEval代码测试中,Gtok3的得分是96.2%, 和Gtok2的82.1%对比,直接就把最高分给抢过来了。
这说明开发者能用自然语言描述更复杂的需求,模型一次性生成能运行代码的概率几乎是百分之百, 自己弄的门槛完全被消除了。
3.视觉理解,总算是不再是瞎的情况了
Grok系列第一次加入图像分析
在ChartQA图表理解测试中,Gtok3的准确率是89.4%,和GPT-4o的90.1%差不多, 不过响应速度快了40%。
这就意味着,你可以直接把一张财报截图、一张工程图纸, 甚至一张手写草稿扔给它,它能够马上提取关键信息并且还能回应追问,免费使用视觉助理的时代,确实已经到来了。
–
生态落地
API同步更新了,新增了Agent团队协作模式, 能够支持好几个Gtok3实例一起处理复杂任务,长上下文支持扩展到128KToken了,整本书放进去都能记得住。
定价,是保持不变的,输入是5/百万Token, 输出是15/百万Token,从当下起在X平台以及xAI开发者中心全面开放,Premium+用户可以优先体验。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211100.html