GLM-5登顶开源模型No.1！智力指数首破50大关，打平Opus 4.5

科技前沿 • 2026-04-25 16:16 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

这你受得了吗？一晚上，上下文的新模型，全都发了，不过这篇还是重点说说GLM-5

先放一张智谱自己的数据

在Artificial Analysis最新的评测中，GLM-5拿下了开源权重模型智力排名的第一把交椅，是首个智力指数破50的开源模型,GLM-5的表现超越了Kimi K2.5，与claude opus 4.5打平：除代码能力外，在低幻觉率，以及顶级推理和智能体能力上，同样不容小觑，并且在（专注于经济价值工作任务的智能体基准测试）中，其性能也远超 GLM-4.7，竟然直接超越claude opus 4.5

跑分不错，在日常聊天和角色扮演中也展现出了不俗的实力。

以下是你可能关心的点：

此前的GLM-4.5、4.6和4.7系列均为355B总参数/32B激活参数的混合专家模型。而GLM-5直接扩展到了744B总参数，激活参数达到40B。

技术细节上，GLM-5集成了DeepSeek的稀疏注意力（Sparse Attention）机制。这使得其参数规模与DeepSeek V3家族（671B总参数/37B激活）和Moonshot的Kimi K2家族（1T总参数/32B激活）处于同一量级。

不过，部署门槛也随之提高。GLM-5以发布，总大小约为1.5TB。相比之下，DeepSeek V3和Kimi K2分别以FP8和INT4精度发布，体积更小。如果是自行部署，仅存储权重的内存需求就高达1490GB。

其他关键模型细节包括：

在Artificial Analysis的智能体指数（Agentic Index）中，GLM-5以63分的成绩位列开源模型第一，总排名第三。

这一成绩主要得益于其在GDPval-AA基准测试中的强劲表现。该测试主要关注具有经济价值的知识工作任务，涵盖了从准备ppt、数据分析到视频剪辑等全流程。

GLM-5的GDPval-AA ELO得分为1412，仅次于Claude Opus 4.6和GPT-5.2（xhigh）。这意味着在处理现实世界中具有经济价值的工作任务时，GLM-5带来了显著的性能提升。

GLM-5在（AA-Omniscience Index）上进步巨大，得分为-1。相比GLM-4.7（Reasoning版本）的-36分，提升了35点。

其背后的关键在于幻觉率的大幅降低。数据显示，GLM-5的幻觉率降低了56个百分点，它是目前测试模型中幻觉水平最低的。实现这一点的策略很简单：对于不知道的问题，模型会更频繁地选择拒绝回答，而不是胡编乱造。

在效率方面，运行智力指数测试时，GLM-5输出了约1.1亿个token，而GLM-4.7则消耗了约1.7亿个。尽管得分更高，但在输出上更加精简。

在性价比方面，GLM-5处于智力与成本的帕累托曲线上。运行该指数的成本约为547美元，基于第三方供应商的中位数价格，其每token价格低于Claude Opus、Google Gemini和OpenAI GPT-5.2等。

我自己也做了一个小测试，deepseek新模型和glm5对比，左侧画面DeepSeek，右侧为GLM-5，DeepSeek新模型表现不如GLM-5，DeepSeek新模型有进步，但表现平平，不过据传deepseek这个新模型只是一个小尺寸的版，这个小测试是我自己私藏的一个经典测试，每次有新模型都会先测一下

目前，GLM-5已在API上线，Novita、GMI Cloud和DeepInfra等第三方平台也提供了服务，价格在每百万输入/输出token 0.8-1美元/2.5-3.2美元之间（FP8精度）

官方透露了后续计划：GLM-5将在本周内向Coding Plan Pro用户开放，随后将努力向所有用户推广。

但目前算力比较紧张。在GLM-5发布之前，为了维持推理服务，芯片性能已经被压榨到了极限。

总体来说GLM-5代码能力提升巨大，当然实际中的体验还是看个人

GLM-5登顶开源模型No.1！智力指数首破50大关，打平Opus 4.5

相关推荐