2026年Grok 4.20远远落后于Gemini和GPT-5.4，但创下了无幻觉的新纪录

科技前沿 • 2026-03-14 22:35 • 阅读 0

Grok 4.20远远落后于Gemini和GPT-5.4，但创下了无幻觉的新纪录p xAI 的 Grok 4 20 在基准测试中无法跟上顶级 AI 模型的步伐但幻觉表现比测试过的其他模型都要少根据 Artificial Analysis 的数据 Grok 4 20 Beta 在启用推理后智力指数得分为 48 远低于 Gemini 3 1 Pro Preview 和 GPT 5 4 的 57 分但仍比 Grok 4 提升了 6 分 p p p

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 xAI的Grok 4.20在基准测试中无法跟上顶级AI模型的步伐，但幻觉表现比测试过的其他模型都要少。根据Artificial Analysis的数据，Grok 4.20 Beta在启用推理后智力指数得分为48，远低于Gemini 3.1 Pro Preview和GPT-5.4的57分，但仍比Grok 4提升了6分。



xAI 发布了三种 API 变体：带推理、无推理和多智能体模式。该模型支持200万代币上下文窗口，成本为每百万代币2美元或6美元;比Grok 4便宜，价格在西方型号中具有竞争力。

Grok 4.20最突出的地方，就是事实的可靠性。在AA全知测试中，根据人工分析，他的非幻觉率达到了78%，创下了纪录。该测试测量模型制造答案的频率，而不是承认自己不知道，同时结合事实回忆。Grok 4.20只有五分之一的答错率没有答案。
 文章来源：https://the-decoder.com/grok-4-20-trails-gemini-and-gpt-5-4-by-a-wide-margin-but-sets-a-new-record-for-not-hallucinating/

小讯

2026年DeepSeek-V3.1 发布

上一篇 2026-03-14 22:36

纽扣助手微信自动回复设置方法

下一篇 2026-03-14 22:34

2026年DeepSeek-V3.1 发布 1773460202
2026年疯狂的“龙虾”与断货的Mac mini：普通人真的需要“养虾”吗？ 1773460168
2026年Nano Banana提示语精选项目：基于UE5与Octane渲染的3D产品演进信息图源码包 1773460104
2026年OpenClaw 大热，龙虾要姓“鹅”？ 1773460041
2026年无法将“choco”项识别为 cmdlet、函数、脚本文件或可运行程序的名称的解决方案 1773460009
2026年别让“龙虾”变“木马”：OpenClaw爆红背后，你的数据还安全吗？ 1773459973
2026年人工智能赋能应用实践指南 1773459882
马化腾低估了 AI？ 1773459850
如何评价豆包基本的加减法算数错误？ 1773459817
纽扣助手微信自动回复设置方法 1773460263
2026年Nano-Banana参数调优指南：避开新手坑，调出黄金组合效果 1773460329
2026年Agent全面爆发！万字长文详解上下文工程（小白／程序员必收藏） 1773460357
2026年通义千问3-4B如何处理长文本？256k上下文实测教程 1773460389
Kimi K2.5 模型发布：更智能、更全能的开源多模态AI 1773460426
2026年OpenClaw 最缺的，可能一直都不是教程 1773460488
提问 OpenClaw 没有回答，后台进程显示 “403 Forbidden” 字样的报错信息。 1773460554
AI智能体（AI Agent）核心标的全景梳理：12家核心企业全解析 1773460580
Qwen-Image模型解析[项目源码] 1773460647

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/234809.html