这你受得了吗?一晚上,上下文的新模型,全都发了,不过这篇还是重点说说GLM-5
先放一张智谱自己的数据
在Artificial Analysis最新的评测中,GLM-5拿下了开源权重模型智力排名的第一把交椅,是首个智力指数破50的开源模型,GLM-5的表现超越了Kimi K2.5,与claude opus 4.5打平:除代码能力外,在低幻觉率,以及顶级推理和智能体能力上,同样不容小觑,并且在 (专注于经济价值工作任务的智能体基准测试)中,其性能也远超 GLM-4.7,竟然直接超越claude opus 4.5
跑分不错,在日常聊天和角色扮演中也展现出了不俗的实力。
以下是你可能关心的点:
此前的GLM-4.5、4.6和4.7系列均为355B总参数/32B激活参数的混合专家模型。而GLM-5直接扩展到了744B总参数,激活参数达到40B。
技术细节上,GLM-5集成了DeepSeek的稀疏注意力(Sparse Attention)机制。这使得其参数规模与DeepSeek V3家族(671B总参数/37B激活)和Moonshot的Kimi K2家族(1T总参数/32B激活)处于同一量级。
不过,部署门槛也随之提高。GLM-5以发布,总大小约为1.5TB。相比之下,DeepSeek V3和Kimi K2分别以FP8和INT4精度发布,体积更小。如果是自行部署,仅存储权重的内存需求就高达1490GB。
其他关键模型细节包括:
在Artificial Analysis的智能体指数(Agentic Index)中,GLM-5以63分的成绩位列开源模型第一,总排名第三。
这一成绩主要得益于其在GDPval-AA基准测试中的强劲表现。该测试主要关注具有经济价值的知识工作任务,涵盖了从准备ppt、数据分析到视频剪辑等全流程。
GLM-5的GDPval-AA ELO得分为1412,仅次于Claude Opus 4.6和GPT-5.2(xhigh)。这意味着在处理现实世界中具有经济价值的工作任务时,GLM-5带来了显著的性能提升。
GLM-5在(AA-Omniscience Index)上进步巨大,得分为-1。相比GLM-4.7(Reasoning版本)的-36分,提升了35点。
其背后的关键在于幻觉率的大幅降低。数据显示,GLM-5的幻觉率降低了56个百分点,它是目前测试模型中幻觉水平最低的。实现这一点的策略很简单:对于不知道的问题,模型会更频繁地选择拒绝回答,而不是胡编乱造。
在效率方面,运行智力指数测试时,GLM-5输出了约1.1亿个token,而GLM-4.7则消耗了约1.7亿个。尽管得分更高,但在输出上更加精简。
在性价比方面,GLM-5处于智力与成本的帕累托曲线上。运行该指数的成本约为547美元,基于第三方供应商的中位数价格,其每token价格低于Claude Opus、Google Gemini和OpenAI GPT-5.2等。
我自己也做了一个小测试,deepseek新模型和glm5对比,左侧画面DeepSeek,右侧为GLM-5,DeepSeek新模型表现不如GLM-5,DeepSeek新模型有进步,但表现平平,不过据传deepseek这个新模型只是一个小尺寸的版,这个小测试是我自己私藏的一个经典测试,每次有新模型都会先测一下
目前,GLM-5已在API上线,Novita、GMI Cloud和DeepInfra等第三方平台也提供了服务,价格在每百万输入/输出token 0.8-1美元/2.5-3.2美元之间(FP8精度)
官方透露了后续计划:GLM-5将在本周内向Coding Plan Pro用户开放,随后将努力向所有用户推广。
但目前算力比较紧张。在GLM-5发布之前,为了维持推理服务,芯片性能已经被压榨到了极限。
总体来说GLM-5代码能力提升巨大,当然实际中的体验还是看个人
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/273610.html