马斯克发布的 Grok 4 声称是全球最强 AI 模型，这一说法是否可信？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

马斯克发布Grok 4，称其是全球最强AI模型

大家好，我是今天要为偶像打call的刘与白。

最近马斯克可太忙了！刚成立了美国党，转头又来搞Grok 4发布会。政治风暴加上那么多公司要管，他是肉眼可见老了一大块。

他上来就说“这是世界上最好的 AI”，称Grok 4 实现了大爆炸级别的智能进化。

有多爆炸？

马斯克说，自己相信Grok 4 可以在今年内实现科学新发现！

要知道，“用AI实现科学发现”可以说是今年各AI巨头的必争高地，毕竟老跟什么高考题较劲儿也实在让人提不起兴趣了。OpenAI的CEO Sam Altman就曾多次表达，希望让AI成为科学家造福人类。

马斯克凭什么说Grok 4可以做到呢？

Grok 4 更侧重于推理训练，比Grok 3推理训练量提升了10 倍。从学术角度看，Grok 4 在所有学科上都是博士水平，甚至比绝大多数本学科的博士还要强。

但Grok 4 绝不只是书呆子，它的强项是“用工具来理解世界，并用来完成任务。”

演示中，Grok 4 写了一段关于引力波和黑洞的模拟代码。在过程中，它调用了网络搜索、文献检索和阅读、代码运行等工具（功能），最终实现了网页上可直接运行的模拟代码。

今天一位网友也对grok 4 的干活儿能力一顿夸。

他发现，grok 4 加上3D 生成大模型Rodin Gen-2 能把复杂物体的内部结构和运动关系都搞懂，直接生成可用的机器人/3D模型文件，省掉大量手工设计和调试。

这对游戏、机器人、具身AI、3D打印厂商来说，意味着设计和落地速度要快好几倍！

Grok 4当然不是只给用户用，马斯克名下那么多公司其实早就闭环了——主打一个互相赋能。

Grok 4将深度整合特斯拉AI超级计算机系统，为全自动驾驶（FSD）及Optimus人形机器人提供核心技术支持。

也就是说，Grok 4还将重点强化逻辑推理与空间模拟能力。

从会做题的博士，到会协同工具出活儿，再到通过特斯拉提高空间模拟能力，这种超能力有多强悍？

相当于一个极度聪明、通晓所有学科的顶尖人才，可以借助任何工具在现实物理世界里做事。这么看来，AI能像科学家一样发明创造也就不足为奇了。

当初Grok 3 动用了20万块英伟达GPU，通过全球最大的超算集群Colossus才炼成，却让大家免费用。而Grok 4不但收费而且很贵——最强的Grok 4 Heavy 一个月要花300 美元。（OpenAI 的Pro 会员月费才200 美元。）

这说明，Grok 4的训练成本肯定也是奇高！

而且，平面世界里的数据已经快被人类用尽，马斯克表示，“我们快没有合适的问题来考验 AI 了，很多问题都是人类几乎无法回答（没有正确答案）的。”

要用特斯拉的自动驾驶练出AI的空间智能，怕是有点费劲，因为特斯拉的FSD视觉识别系统本身还老看不准障碍物呢，前两天刚撞了一辆好好停着的车。

要让AI理解物理世界，做出颠覆性的科学发明，恐怕还是要结合“AI教母”李飞飞等人的空间智能研究成果。

最后，在X翻到了Grok 4的工作照，一眼望去不知道又是多少中国人！

希望我们在AI顶尖技术上也做大做强，再创辉煌！

如果你觉得有收获，欢迎点赞分享关注！祝您三年两胎，儿女双全

这里老马刷了个小花招。

那个打榜天下第一，理论分数世界最强的，是Grok-4 Heavy，月费300刀。

普通人用的起的，30刀的Grok 4，提升确实有，但确实比较一般。

不过，Grok 4确实补充了不少多模态能力，还是值得用的。

美国时间7月9日晚8点，马斯克身穿皮衣召开了人工智能大模型Grok 4的发布会。尽管发布会临时推迟了一个小时，但简洁干练的发布会风格配合Grok 4演示时的完美表现可谓全程高能。

在发布会的演示中，Grok 4凭一己之力刷爆了所有大模型评测榜单，被戏称为“四最模型”——最懂人类、最会编程、最会推理、Agent能力最强的大模型没有之一。

本篇文章笔者将从Grok 4发布会表现和Grok 4实际使用效果两方面向大家揭示Grok 4模型的性能配不配得上它“史上最强大模型的称号”

Grok4模型的API已经开放，至于如何在国内使用呢，大家可以关注我的同名微信公众号: 大模型真好玩，私信Grok4使用指南即可获得。

早在发布会前几天，马斯克就高调预告了新一代模型的强大性能，并提出了Grok4相比当前大模型的两个核心优势:

第一性原则： 遇到问题不会套解法，而是深入到问题的最底层，依据最底层的原理进行思考。相比其它模型，Grok4看问题更加透彻，结果也更加准确。
人类最终考试HLE： Grok 4这次挑战的是一个覆盖100+科研领域的博士级跨学科难题组成的数据集，并且大多数问题答案都没有公开，因此HLE能够最客观的测试大模型的能力水平。由于HLE难度太大，就连Gemini2.5 Pro这种顶尖大模型也只有26%的准确率，但Grok 4却达到了35%-45%。

据说马斯克本来是准备发布Grok3.5的，一看新模型性能如此强悍，直接一步到位宣布Grok 4直接发布！

不得不说老马的造势能力十分强，在他这一系列骚操作的加持下，大家对Grok 4的期待值可以说是拉满了。

平心而论,发布会上Grok4的表现赚足了观众眼球。

推理能力方面， Grok4在数学、逻辑、科研等数据集的评分都是世界第一。AIME高难度数学考试成绩甚至直接满分

在备受关注的编程领域，Grok4超越了Claude3.5 Sonnet，发布会上这段模拟黑洞对撞的编程，实际效果不仅能严格满足背后的物理规律，而且粒子波纹特效都可圈可点。未来马斯克还计划推出Grok Coding编程模型，据称该模型在SWE-Bench上的评分超越了Claude 4 Opus，是目前全球性能最强的大模型。

Grok 4还拥有多模态功能，不仅支持输入输出图片，还有实时的语音交互，哪怕是现场和GPT 4O的语音模型进行battle, 也丝毫不落下风。

Grok4 的DeepResearch能力非常强悍，能够深度整理海量的网络信息并根据指令完成长文档编写。

Grok4的学习能力很强。本次发布会引用了一项全新的评估数据集ARC-AGI，专门用于测试模型学习能力。举个例子：让模型根据如下的图片形式去预测最后一张图片的形状。

在这个测试集中，Grok 4取得了仅次于OpenAI o3 pro的第二名的好成绩

更重要的是，Grok 4模型拥有目前最顶尖的Agent性能。Vending-Bench数据集是模拟经营自动售货机数据集，在Vending-Bench测试中，大模型需要进行管理库存、联系供应商、设定价格等。人类会根据实际经营效果评估模型的计划与策略能力、以及工具调用能力等，Grok4在这个数据集上评分是第二名Claude Opus4模型的三倍，而这也说明Grok 4是最适合构建Agent智能体的大模型没有之一。

Grok4发布即可用，目前已登录grok和x主页，但需要开通每个月30\(的SuperGrok才可以使用。并且如果开通每个月300\)的SuperGrok Heacy还能使用Grok 4的Heavy模式，在Heavy模式下可以使用内置的多智能体Multi-Agent更好的完成任务。

不得不说发布会上Grok4凭一己之力刷爆了全部榜单，是当之无愧的六边形战士。而且马哥说了，Grok4只是开始，接下来的两个月，马斯克还将继续发布Grok的编程专用模型，Multi-Agent系统以及视频生成模型，可以说我马哥能力很强，野心更大。就发布会上的表现而言，Grok4配得上下面这句话，然而Grok4真的是我们日常模型使用的**选择吗？请看我下面内容。

以下内容是笔者引用B站知名大模型博主的实际评测结果，将Grok4模型在编程能力、推理阶段、DeepResearch和长文本编写能力上的表现与DeepSeek-R1-0528作对比（大家可以看看我对DeepSeek-R1-0528的评测）

我们首先使用经典的小球翻滚问题评测DeepSeek-R1的能力，提示词如下:

请生成一个完整的 HTML文件(将 HTML、CSS 和 JavaScript均嵌入单一文件中)，模拟一个红色小球在顺时针缓慢旋转的正五边形内部弹跳的动画。要求: -小球应受重力影响，并在碰到边界时发生反弹; -小球与多边形之间的碰撞检测要真实; 所有代码应包含在文件内，不要引用外部库或文件;动画要平滑，页面布局适配

结果发现Grok4 输出的代码有误，并不能一次运行，经过检查发现竟然是符号写错了（现在大模型很少犯这种低级问题）

修改之后的实际运行效果如下：

作为对比我们再来看看DeepSeek-R1模型生成的效果，明显要比Grok4优秀。

我们还测试了Grok4编写官网首页的例子，结果Grok4生成的效果如下：

大家再想想我在DeepSeek-R1-0528的评测中的效果，好坏优劣一目了然，说明Grok 4的编程，至少在前端领域远远不如DeepSeek-R1-0528,并未进行单独的功能优化，可能要等到Grok Coding出来才能和DeepSeek等主流模型一较高下吧。

在推理能力方面，Grok 4也并未展现出发布会上演示的能力，以经典的海盗分赃逻辑题为例:

假设有7个海盗，他们需要分配一批金币。每个海盗都具有以下特点:绝对理性:每个海盗都会尽量使自己的利益最大化。绝对自私:他们只关心自己的得失，不关心他人的情况。暴力威胁:如果一个提案无法被通过(投票否决，则提议者会被“扔下船”分赃规则按照从首领(编号为1的海盗)到最后一名海盗的顺序，依次由每个海盗提出分赃方案。每名海盗(包括提议者)对提案进行投票。提案若获得 至少一半人数(包括自己)或以上的支持则通过;否则，提议者被抛弃，剩下的海盗继盗之间按照逻辑进行投票，遵循理性自私的行揆((提议者)需要提出一个分赃方案，使:己不会被扔下船(提案被通过)。己分得的金币尽可能多。

Grok 4在思考了10分钟之后答错了

相比之下DeepSeek-R1的回答又快又准了

或许在博士级别问题上Grok 4表现不俗，但对于普通用户来说，大模型的基础能力才是它们真正关心的部分。

Grok4 在DeeoResearch方面的能力为它扳回一城，这次我们提了一个非常复杂的竞赛级别的网络检索问题，要求模型根据零星线索和隐藏的逻辑链条在海量网页中进行搜索并给出准确回答，

有一位间谍A，他会说多种语言，并在一篇2023年关于其活动时期的书评中被提及。他的配偶是间谍B，B曾在不同大陆活独蕷挡品简滏网捯决一操俟左法，他们的间谍网络被破获;第二次是在亚洲，无意间向一群外国军官暴露了身份。此外，间谍B还是另一名间谍C的上线(handler)，而C的孙子在2014年写过一篇关于相关情报机关档案公布的文章。这两位间谍A和B还有一个孩子，后来该孩子以异见分子的身份被逮捕，最终其服刑时间谍A还曾协助一名记者为写小说提供资料。请问:这名记者的国籍是什么?

Grok4在思考了10min后，检索了238个网页后给出了正确答案.

Grok 4的长文本编写能力毋庸置疑，无论是分析报告还是中篇小说都能顺利完成。

总的来说，Grok4还是存在一定的能力缺陷，并不如它发布会说的那般强悍，但Grok系列模型的进化速度确实惊人，仅仅4个月就达到如此成就也值得让人惊叹。正如发布会上Grok团队介绍的那样，或许它们真的已经找到了基于优质反馈信息的能持续提升模型能力的强化学习训练方法。（毕竟20万张H100的资源在那里撑着，这么强的算力，Grok的快速发展也在情理之中）。

我还是比较期待Grok4 Coding和Multi Agent的发布，期待它们又将怎样改变大模型技术落地的场景？反正笔者是感觉技术更新迭代的太快（都有点卷不动了），我们还是要紧跟时代潮流，抓住大模型时代的机遇。

以上就是我本次分享全部内容，大家阅读后感兴趣可关注笔者知乎账号，也可关注同名微信公众号大模型真好玩，免费分享大模型工作学习中的资料、经验和教程（私信Grok4使用指南可获得国内Grok 4使用详细资料呦）

马斯克发布的 Grok 4 声称是全球最强 AI 模型，这一说法是否可信？

相关推荐