
<p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F3725acedj00sm3uth00hld000v900dbp.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAI9M">机器之心报道</p><p id="34LDAI9N"><strong>编辑:张倩、陈陈</strong></p><p><blockquote id="34LDAIBR">Grok 大模型终于能看懂图像了。<br/></blockquote></p><p id="34LDAI9P">设想一下,如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型(LLM)中,并从中获得格式规范的 LaTeX 文档库,这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言,这不仅仅是技术层面的飞跃,它更标志着知识管理和信息传播方式的一次重大变革。</p><p id="34LDAI9Q">马斯克旗下的人工智能公司 xAI 发布的 Grok 大模型有助于实现这一目标 —— 在经历了最近的一次更新后,Grok 大模型终于能看懂图像了,甚至还能做公式 OCR、解释笑话。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fe7e7a158j00sm3upv000od000u000efm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAI9S">AI 销售和营销自动化平台 Amplemarket 创始人 Luis Batalha 在试用后表示:借助 Grok,他能把理论物理学家 Feynman 博士论文中的公式转换成 LaTeX。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F0dd7f37dj00sm3upw003nd000u0013jm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAI9U">转化之前的文本长这样:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fj00sm3upv001fd000u000kvm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIA0">可以看出,里面的公式基本都是手写的,肉眼辨认尚有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Ffj00sm3upw0024d000u000nom.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIA2">图源:https://x.com/luismbat/status/0</p><p id="34LDAIA3">这个帖子吸引了众多研究人员的关注,整个帖子的浏览量已经突破 100 万。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F8fa6bf43j00sm3upw002hd000u000j2m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIA5">还有人晒出了自己用 Grok 识别出的 18 世纪文件:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F53f8b638j00sm3upw004ad000u000sum.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIA7">在识别其他图像方面,Grok 表现也非常不错。比如网友上传了一张手表的照片,Grok 根据表壳形状和表带设计猜出了表的品牌(对手表有研究的读者可以看下猜得对不对)。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fde6ad6e7j00sm3upw002qd000u000qum.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fj00sm3upw0029d000u000mtm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAB">你还可以让 Grok 点评图片,它能从时尚、风格、表情等多个角度进行描述。比如针对下面这张图,Grok 回答:「图片中描述了一位动漫风格的人物,这位人物拥有中等长度的棕色头发,戴着眼镜,并且正在弹奏贝斯吉他。该角色展现了一种休闲、现代的造型,穿着一件格子衫外套和深色裤子,以及带有红色装饰的白色运动鞋。这种装扮表明这是一个年轻的、可能还在上学的角色,给人一种悠闲的艺术氛围……」</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fj00sm3upw001sd000o100r7m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAD">图源 https://x.com/ItsZeramy/status/</p><p id="34LDAIAE">马斯克表示,Grok 其实也可以用来解释笑话(梗图)。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F324cd793j00sm3upw002yd000u000qzm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAG">今年三月,Grok-1 正式亮相,在数学、推理等能力上取得了不错的成绩。之后,xAI 迅速推出 Grok 1.5,新一代模型实现了长上下文理解和高级推理能力。8 月,Grok 2 上线,在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。</p><p id="34LDAIAH">如今,在 xAI 不断完善下,大家终于可以体验 Grok 的图像理解能力了。为了验证各路网友的说法,机器之心在第一时间进行了测试。</p><p id="34LDAIAI"><strong>公式 OCR 能力实测</strong></p><p id="34LDAIAJ">首先,机器之心测试了一下 Grok 对公式的处理能力。我们输入经典论文《 Attention Is All You Need 》中的一张公式截图,要求转换成 LaTeX 代码。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F1d52a3e9j00sm3upw0006d000my0034m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAL">输入的公式截图,对应论文中的公式(1)。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fe7f07795j00sm3upw001hd000u000onm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAN">然后,我们将 LaTeX 表达式输入到在线 LaTeX 公式编辑器中进行转换,比对之后发现结果完全正确。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fa8f06692j00sm3upv000wd000u000jsm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAP">公式来源:https://arxiv.org/pdf/1706.03762</p><p id="34LDAIAQ">之后,我们上了点难度,用手写公式进行测试,输入的公式截图看起来不是很规范,但 Grok 还是给出了结果。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F38387cd1j00sm3upv001id000u000q4m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fea3be0bej00sm3upw001ed000u000pym.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIAU"><strong>梗图理解能力实测</strong></p><p id="34LDAIAV">接着,我们再看看 Grok 对图片的理解能力。</p><p id="34LDAIB0">不知大家是否 get 到小女孩吃蛋糕这张图的笑点。如果没有,当你看完 Grok 的解释,有种恍然大悟的感觉。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F47b9efcbj00sm3upw002pd000u000rwm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIB2">不过,Grok 并不是总懂幽默。我们输入如下图片,图片原来的意思应该是想表达打工人的一天似乎都很疲惫,但到了深夜却格外精神。但 Grok 给出的结果并不是。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Ff763b139j00sm3upv000pd000f000efm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fc4ebb839j00sm3upw002nd000u000uom.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIB6">经过测试,我们还发现 Grok 对图片中的中文理解的不是很好,比如错把中文字符「我的精神状态」转换成「敌人的精神状态」。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Ff72a9d05j00sm3upv0037d000u000w7m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIB8"><strong>Grok vs. ChatGPT,谁的识图能力更强?</strong></p><p id="34LDAIB9">虽然识图是 Grok 的新功能,效果也很惊艳,但在众多 AI 模型中,这实在算不上一项新颖的功能。因此,有人在马斯克的评论区发出灵魂拷问,「Grok 到底进展到什么程度了?感觉远远落后于 ChatGPT 啊」。对此,马斯克耐心回复说,「我们只用了几个月就完成了其他人花了几年时间的工作。」言下之意似乎是不着急,慢慢打磨新功能。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F6a43b80dj00sm3upv002rd000u000lnm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIBB">还有网友上传了一张饮料图片,让 Grok 和 ChatGPT 进行回答。从上传的资料来看,图片内容并不清晰,而且还不是中文,对于不懂外语的小伙伴可能有点难度。但是 Grok 和 ChatGPT 都给出了回答。</p><p id="34LDAIBC">Grok 回答:图片中的饮料是「백세주(Baekseju)」 ,这是一种传统的韩国酒精饮料。它是一种用人参和其他草药浸泡的米酒,以其假定的健康益处而闻名。瓶子上的标签显示了 D,这可能是 Baekseju 的某个特定品牌或变种。由于其浓烈的风味和药用属性,通常只消费少量。</p><p id="34LDAIBD">ChatGPT 回答:这款饮料是 Bacchus-D,一种在韩国流行的能量饮料。它通常包含***、牛磺酸和维生素 B2、B6、B12,这些成分被认为可以提升能量水平。在韩国,它常被用作快速提神的饮品。</p><p id="34LDAIBE">熟悉这款饮料的小伙伴,可以点评一下,这两个模型,哪个回答的更好。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fd723d4c2j00sm3upv000fd000r40039m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F90a00b21j00sm3upw001yd000tp00gam.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIBI">图源:https://x.com/chrisfirsttt/status/</p><p id="34LDAIBJ">对于 Grok 没有理解的梗图,我们在 ChatGPT 上也做了测试。ChatGPT 的回答明显更胜一筹,中文识别能力也更强。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2Fe0d74ea4j00sm3upv001cd000u000hom.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F037ec3c3j00sm3upw0021d000u000lrm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIBN">经过一番测试以及网友给出的示例来看,Grok 在输出 LaTeX 表达式方面确实不错,对图片中出现的主体和场景解释的非常到位,但对梗图的解释时好时坏,有时能完全解释笑点,有时会解释错误,此外,Grok 对中文字符的识别能力也不是很好。</p><p id="34LDAIBO">最后提醒大家一下,Grok 并不是免费的,付费用户才能体验。可以使用的小伙伴,可以进行测试了。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1029%2F8b6e554cj00sm3upv002cd000r900pmm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34LDAIBQ">地址:https://x.com/i/premium_sign_up?referring_page=grok</p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/192314.html