2026年Grok 4.20:让四个AI在脑子里吵一架再给你答案,幻觉率从12%砍到4.2%

Grok 4.20:让四个AI在脑子里吵一架再给你答案,幻觉率从12%砍到4.2%p 今年二月 xAI 推出了 Grok 4 20 不是 Grok 5 而是一个结构上完全不同的东西 strong 在同一个模型里跑四个有角色分工的 agent 让它们互相质疑 辩论 最后合出一个答案 strong p 这个想法听起来有点玄 但背后有一套具体的工程设计 先说结构 Grok 4 20 不是四个独立的模型

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

今年二月,xAI推出了Grok 4.20,不是Grok 5,而是一个结构上完全不同的东西:在同一个模型里跑四个有角色分工的agent,让它们互相质疑、辩论,最后合出一个答案

这个想法听起来有点玄,但背后有一套具体的工程设计。

先说结构:Grok 4.20不是四个独立的模型,而是一个约3万亿参数的MoE大底座,每次推理激活约5000亿参数。四个agent通过LoRA风格的轻量适配层在这个底座上运行——本质上是同一个模型的四种”人格”。

四个角色分别是:

  • Grok(队长):任务拆解、整体策略、最终综合输出
  • Harper(研究员):实时搜索和事实核查,大量接入X平台信息流
  • Benjamin(逻辑专家):逐步推理、数学计算、代码生成和验证
  • Lucas(反方):专门找漏洞——识别偏见、质疑结论、防止过度自信

每次遇到够复杂的问题,这四个agent走一套流程:任务分解 → 并行分析(共享KV缓存)→ 多轮辩论 → 最终综合

辩论不是表演,Lucas的存在就是为了打断Grok和Benjamin可能产生的确认偏差。

幻觉率从Grok 4.1的12%降到4.2%,降幅65%。

4%在目前的大模型里算相当低了,OpenAI和Anthropic的旗舰模型大概在5-8%区间。

其他数据:

指标 Grok 4.20 IFBench(指令遵从) 83%,排第一 推理速度 220.5 tokens/秒 SWE-bench(编程) 75% Intelligence Index 第8,得分48 上下文窗口 200万token

编程这块75%,比Claude Opus 4.6的80.8%还差一点。综合排名第8,GPT-5.4是57分,差距不小。所以Grok 4.20在”最聪明”这个维度上没能拿第一,但在”说话最靠谱”上有竞争力。

多agent框架不是Grok 4.20发明的——LangGraph、AutoGen这些已经做了很久。但xAI的做法有个关键区别:不是让多个独立模型协作,而是在同一个底座上跑多个角色

好处是:

  • 共享KV缓存,延迟低很多
  • 不需要在模型之间传递大量上下文,减少信息损耗
  • 所有agent对同一个输入有相同的底层理解

换句话说,以前的”多agent”是几个人合作解题,Grok 4.20是一个人脑子里有四种思维模式同时运转。

这套系统跑在xAI的Colossus超算上,位于孟菲斯:30万张以上GPU,功耗2吉瓦,内存带宽194 PB/s。200万token的上下文窗口能装下一个大型代码库加上几年的文档记录。

一个细节:xAI还没公开辩论轮次是固定的还是自适应的,这部分工程细节还是黑盒。

  • API:输入\(2/M,输出\)6/M
  • 普通用户:SuperGrok订阅(约$30/月)或X Premium+

价格比Claude Opus 4.6贵,比GPT-5.4便宜一些。

幻觉率大幅下降说明让AI”自我质疑”这个机制在工程上是有效的。这或许是一个比单纯堆参数更值得投入的方向。

但目前还有几个未解决的问题:辩论轮次的控制逻辑是什么?Lucas的质疑是否会导致过度保守?这些xAI都没有公开。

架构上能公开的是,这是目前已知的第一个把四agent辩论做到统一底座、共享KV缓存的商业产品——如果这个思路被验证有效,后面其他大厂跟进只是时间问题。

小讯
上一篇 2026-04-14 08:23
下一篇 2026-04-14 08:21

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261592.html