美国时间7月9日晚8点,马斯克身穿皮衣召开了人工智能大模型Grok 4的发布会。尽管发布会临时推迟了一个小时,但简洁干练的发布会风格配合Grok 4演示时的完美表现可谓全程高能。

在发布会的演示中,Grok 4凭一己之力刷爆了所有大模型评测榜单,被戏称为“四最模型”——最懂人类、最会编程、最会推理、Agent能力最强的大模型没有之一。
本篇文章笔者将从Grok 4发布会表现和Grok 4实际使用效果两方面向大家揭示Grok 4模型的性能配不配得上它“史上最强大模型的称号”~
Grok4模型的API已经开放,至于如何在国内使用呢,大家可以关注我的同名微信公众号: 大模型真好玩, 私信Grok4使用指南即可获得。
早在发布会前几天,马斯克就高调预告了新一代模型的强大性能,并提出了Grok4相比当前大模型的两个核心优势:
- 第一性原则: 遇到问题不会套解法,而是深入到问题的最底层,依据最底层的原理进行思考。相比其它模型,Grok4看问题更加透彻,结果也更加准确。
- 人类最终考试HLE: Grok 4这次挑战的是一个覆盖100+科研领域的博士级跨学科难题组成的数据集,并且大多数问题答案都没有公开,因此HLE能够最客观的测试大模型的能力水平。由于HLE难度太大,就连Gemini2.5 Pro这种顶尖大模型也只有26%的准确率,但Grok 4却达到了35%-45%。

据说马斯克本来是准备发布Grok3.5的,一看新模型性能如此强悍,直接一步到位宣布Grok 4直接发布!
不得不说老马的造势能力十分强,在他这一系列骚操作的加持下,大家对Grok 4的期待值可以说是拉满了。
平心而论,发布会上Grok4的表现赚足了观众眼球。
推理能力方面, Grok4在数学、逻辑、科研等数据集的评分都是世界第一。AIME高难度数学考试成绩甚至直接满分

在备受关注的编程领域,Grok4超越了Claude3.5 Sonnet,发布会上这段模拟黑洞对撞的编程,实际效果不仅能严格满足背后的物理规律,而且粒子波纹特效都可圈可点。未来马斯克还计划推出Grok Coding编程模型,据称该模型在SWE-Bench上的评分超越了Claude 4 Opus,是目前全球性能最强的大模型。

Grok 4还拥有多模态功能,不仅支持输入输出图片,还有实时的语音交互,哪怕是现场和GPT 4O的语音模型进行battle, 也丝毫不落下风。

Grok4 的DeepResearch能力非常强悍,能够深度整理海量的网络信息并根据指令完成长文档编写。

Grok4的学习能力很强。本次发布会引用了一项全新的评估数据集ARC-AGI,专门用于测试模型学习能力。举个例子:让模型根据如下的图片形式去预测最后一张图片的形状。

在这个测试集中,Grok 4取得了仅次于OpenAI o3 pro的第二名的好成绩,

更重要的是,Grok 4模型拥有目前最顶尖的Agent性能。Vending-Bench数据集是模拟经营自动售货机数据集,在Vending-Bench测试中,大模型需要进行管理库存、联系供应商、设定价格等。人类会根据实际经营效果评估模型的计划与策略能力、以及工具调用能力等,Grok4在这个数据集上评分是第二名Claude Opus4模型的三倍,而这也说明Grok 4是最适合构建Agent智能体的大模型没有之一。

Grok4发布即可用,目前已登录grok和x主页,但需要开通每个月30$的SuperGrok才可以使用。并且如果开通每个月300$的SuperGrok Heacy还能使用Grok 4的Heavy模式,在Heavy模式下可以使用内置的多智能体Multi-Agent更好的完成任务。


不得不说发布会上Grok4凭一己之力刷爆了全部榜单,是当之无愧的六边形战士。而且马哥说了,Grok4只是开始,接下来的两个月,马斯克还将继续发布Grok的编程专用模型,Multi-Agent系统以及视频生成模型,可以说我马哥能力很强,野心更大。就发布会上的表现而言,Grok4配得上下面这句话,然而Grok4真的是我们日常模型使用的**选择吗?请看我下面内容。

以下内容是笔者引用B站知名大模型博主的实际评测结果,将Grok4模型在编程能力、推理阶段、DeepResearch和长文本编写能力上的表现与DeepSeek-R1-0528作对比(大家可以看看我对DeepSeek-R1-0528的评测)
我们首先使用经典的小球翻滚问题评测DeepSeek-R1的能力,提示词如下:
结果发现Grok4 输出的代码有误,并不能一次运行,经过检查发现竟然是符号写错了(现在大模型很少犯这种低级问题)

修改之后的实际运行效果如下:

作为对比我们再来看看DeepSeek-R1模型生成的效果,明显要比Grok4优秀。

我们还测试了Grok4编写官网首页的例子,结果Grok4生成的效果如下:

大家再想想我在DeepSeek-R1-0528的评测中的效果,好坏优劣一目了然,说明Grok 4的编程,至少在前端领域远远不如DeepSeek-R1-0528,并未进行单独的功能优化,可能要等到Grok Coding出来才能和DeepSeek等主流模型一较高下吧。

在推理能力方面,Grok 4也并未展现出发布会上演示的能力,以经典的海盗分赃逻辑题为例:
Grok 4在思考了10分钟之后答错了

相比之下DeepSeek-R1的回答又快又准了

或许在博士级别问题上Grok 4表现不俗,但对于普通用户来说,大模型的基础能力才是它们真正关心的部分。
Grok4 在DeeoResearch方面的能力为它扳回一城,这次我们提了一个非常复杂的竞赛级别的网络检索问题,要求模型根据零星线索和隐藏的逻辑链条在海量网页中进行搜索并给出准确回答,
Grok4在思考了10min后,检索了238个网页后给出了正确答案.
Grok 4的长文本编写能力毋庸置疑,无论是分析报告还是中篇小说都能顺利完成。

总的来说,Grok4还是存在一定的能力缺陷,并不如它发布会说的那般强悍,但Grok系列模型的进化速度确实惊人,仅仅4个月就达到如此成就也值得让人惊叹。正如发布会上Grok团队介绍的那样,或许它们真的已经找到了基于优质反馈信息的能持续提升模型能力的强化学习训练方法。(毕竟20万张H100的资源在那里撑着,这么强的算力,Grok的快速发展也在情理之中)。

我还是比较期待Grok4 Coding和Multi Agent的发布,期待它们又将怎样改变大模型技术落地的场景?反正笔者是感觉技术更新迭代的太快(都有点卷不动了),我们还是要紧跟时代潮流,抓住大模型时代的机遇。
以上就是我本次分享全部内容,大家阅读后感兴趣可关注笔者掘金账号,也可关注同名微信公众号大模型真好玩,免费分享大模型工作学习中的资料、经验和教程~ (私信Grok4使用指南可获得国内Grok 4使用详细资料呦)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/221052.html