2026年Grok 4.20远远落后于Gemini和GPT-5.4,但创下了无幻觉的新纪录

Grok 4.20远远落后于Gemini和GPT-5.4,但创下了无幻觉的新纪录p xAI 的 Grok 4 20 在基准测试中无法跟上顶级 AI 模型的步伐 但幻觉表现比测试过的其他模型都要少 根据 Artificial Analysis 的数据 Grok 4 20 Beta 在启用推理后智力指数得分为 48 远低于 Gemini 3 1 Pro Preview 和 GPT 5 4 的 57 分 但仍比 Grok 4 提升了 6 分 p p p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

xAI的Grok 4.20在基准测试中无法跟上顶级AI模型的步伐,但幻觉表现比测试过的其他模型都要少。根据Artificial Analysis的数据,Grok 4.20 Beta在启用推理后智力指数得分为48,远低于Gemini 3.1 Pro Preview和GPT-5.4的57分,但仍比Grok 4提升了6分。


grok_420_AA_benchmark


xAI 发布了三种 API 变体:带推理、无推理和多智能体模式。该模型支持200万代币上下文窗口,成本为每百万代币2美元或6美元;比Grok 4便宜,价格在西方型号中具有竞争力。


Grok 4.20最突出的地方,就是事实的可靠性。在AA全知测试中,根据人工分析,他的非幻觉率达到了78%,创下了纪录。该测试测量模型制造答案的频率,而不是承认自己不知道,同时结合事实回忆。Grok 4.20只有五分之一的答错率没有答案。

文章来源:https://the-decoder.com/grok-4-20-trails-gemini-and-gpt-5-4-by-a-wide-margin-but-sets-a-new-record-for-not-hallucinating/
小讯
上一篇 2026-03-14 22:36
下一篇 2026-03-14 22:34

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/234809.html