xAI的Grok 4.20在基准测试中无法跟上顶级AI模型的步伐,但幻觉表现比测试过的其他模型都要少。根据Artificial Analysis的数据,Grok 4.20 Beta在启用推理后智力指数得分为48,远低于Gemini 3.1 Pro Preview和GPT-5.4的57分,但仍比Grok 4提升了6分。

xAI 发布了三种 API 变体:带推理、无推理和多智能体模式。该模型支持200万代币上下文窗口,成本为每百万代币2美元或6美元;比Grok 4便宜,价格在西方型号中具有竞争力。
Grok 4.20最突出的地方,就是事实的可靠性。在AA全知测试中,根据人工分析,他的非幻觉率达到了78%,创下了纪录。该测试测量模型制造答案的频率,而不是承认自己不知道,同时结合事实回忆。Grok 4.20只有五分之一的答错率没有答案。
文章来源:https://the-decoder.com/grok-4-20-trails-gemini-and-gpt-5-4-by-a-wide-margin-but-sets-a-new-record-for-not-hallucinating/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/234809.html