今年二月,xAI推出了Grok 4.20,不是Grok 5,而是一个结构上完全不同的东西:在同一个模型里跑四个有角色分工的agent,让它们互相质疑、辩论,最后合出一个答案。
这个想法听起来有点玄,但背后有一套具体的工程设计。
先说结构:Grok 4.20不是四个独立的模型,而是一个约3万亿参数的MoE大底座,每次推理激活约5000亿参数。四个agent通过LoRA风格的轻量适配层在这个底座上运行——本质上是同一个模型的四种”人格”。
四个角色分别是:
- Grok(队长):任务拆解、整体策略、最终综合输出
- Harper(研究员):实时搜索和事实核查,大量接入X平台信息流
- Benjamin(逻辑专家):逐步推理、数学计算、代码生成和验证
- Lucas(反方):专门找漏洞——识别偏见、质疑结论、防止过度自信
每次遇到够复杂的问题,这四个agent走一套流程:任务分解 → 并行分析(共享KV缓存)→ 多轮辩论 → 最终综合。
辩论不是表演,Lucas的存在就是为了打断Grok和Benjamin可能产生的确认偏差。
幻觉率从Grok 4.1的12%降到4.2%,降幅65%。
4%在目前的大模型里算相当低了,OpenAI和Anthropic的旗舰模型大概在5-8%区间。
其他数据:
编程这块75%,比Claude Opus 4.6的80.8%还差一点。综合排名第8,GPT-5.4是57分,差距不小。所以Grok 4.20在”最聪明”这个维度上没能拿第一,但在”说话最靠谱”上有竞争力。
多agent框架不是Grok 4.20发明的——LangGraph、AutoGen这些已经做了很久。但xAI的做法有个关键区别:不是让多个独立模型协作,而是在同一个底座上跑多个角色。
好处是:
- 共享KV缓存,延迟低很多
- 不需要在模型之间传递大量上下文,减少信息损耗
- 所有agent对同一个输入有相同的底层理解
换句话说,以前的”多agent”是几个人合作解题,Grok 4.20是一个人脑子里有四种思维模式同时运转。
这套系统跑在xAI的Colossus超算上,位于孟菲斯:30万张以上GPU,功耗2吉瓦,内存带宽194 PB/s。200万token的上下文窗口能装下一个大型代码库加上几年的文档记录。
一个细节:xAI还没公开辩论轮次是固定的还是自适应的,这部分工程细节还是黑盒。
- API:输入\(2/M,输出\)6/M
- 普通用户:SuperGrok订阅(约$30/月)或X Premium+
价格比Claude Opus 4.6贵,比GPT-5.4便宜一些。
幻觉率大幅下降说明让AI”自我质疑”这个机制在工程上是有效的。这或许是一个比单纯堆参数更值得投入的方向。
但目前还有几个未解决的问题:辩论轮次的控制逻辑是什么?Lucas的质疑是否会导致过度保守?这些xAI都没有公开。
架构上能公开的是,这是目前已知的第一个把四agent辩论做到统一底座、共享KV缓存的商业产品——如果这个思路被验证有效,后面其他大厂跟进只是时间问题。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261592.html