2026年【实战】GLM-5.1 开源拆解:SWE-Bench Pro 全球最高分的国产模型,MoE架构和8小时自主执行到底怎么回事

【实战】GLM-5.1 开源拆解:SWE-Bench Pro 全球最高分的国产模型,MoE架构和8小时自主执行到底怎么回事svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 
  
    
     
      
     

4月8号智谱开源了GLM-5.1,744B参数MoE架构,SWE-Bench Pro编程测试拿了58.4%,比GPT-5.4的57.7%和Claude Opus 4.6的57.3%都高。本文从架构设计、训练设施、跑分对比、实际体验和选型几个角度做一次完整的技术拆解,附代码和踩坑经验。



4月8号这天挺有戏。Anthropic放了个Claude Mythos Preview出来,测试里挖到几千个零日漏洞,结果自己吓得不敢给公众用;同一天智谱把GLM-5.1以MIT协议丢到了Hugging Face上。一边是能力太强引发的安全焦虑,一边是把顶级能力免费送出去。我比较关心后面那个——对日常写代码到底有没有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


1.1 MoE混合专家

GLM-5.1用的是MoE(Mixture of Experts)架构。跟传统Dense模型不一样的地方在于:参数量很大,但每次推理只激活一小部分。

项目 数值 总参数 744B(大约7540亿) 专家数 256 每次激活 8个 实际运算参数 ~40B 上下文 200K Token(202,752) 最大输出 131,072 Token

256个专家,推理时只调8个出来干活,相当于一个744B的模型以40B的计算量在跑。好处很直接:训练时知识够多(所有专家都参与),推理时不费电(只用40B的计算量)。

1.2 DeepSeek Sparse Attention

200K Token的上下文用普通Transformer的Full Attention根本算不过来。原始注意力是O(n²)的复杂度,200K Token就是400亿次运算。

Sparse Attention的思路是不全算——Token之间不是每对都需要关注,只算有实际关联的那些。计算量压下去了,长文本理解能力基本保住。

# 算一下数量级差异 import math

seq_len = 200_000 # 200K

# Full Attention: O(n²) full_ops = seq_len 2 print(f“Full: {full_ops:,.0f})
# 40,000,000,000



# Sparse: 大致 O(n * sqrt(n)) sparse_ops = seq_len * int(math.sqrt(seq_len)) print(f“Sparse: {sparse_ops:,.0f})
# 89,442,720



print(f“差了 {full_ops / sparse_ops:.0f} 倍”)
# ~447倍

工程实现里压缩比没这么夸张,但数量级上的差异确实在。

1.3 训练用的什么硬件

这部分我觉得比模型本身更值得说:

  • 芯片:10万块华为昇腾910B
  • 框架:MindSpore
  • 英伟达:一块都没有

上周DeepSeek V4也宣布转投华为昇腾了。两个月内两个世界级模型都不依赖英伟达完成了训练,这不再是新闻,而是正在变成常态。



2.1 SWE-Bench Pro横向对比

SWE-Bench Pro测的是在真实GitHub仓库里定位和修复bug的能力。不是那种多选填空,是实际改代码。

模型 SWE-Bench Pro SWE-bench Verified GPQA-Diamond GLM-5.1 58.4% 77.8% 86.0% GPT-5.4 57.7% 79.2% 88.1% Claude Opus 4.6 57.3% 80.8% 89.3% GLM-5 (上代) 42.1% 65.3% 78.2%

看下来:

  1. SWE-Bench Pro确实是目前最高分,比GPT-5.4高了0.7个点
  2. 但SWE-bench Verified(另一个变体)落后Claude三个点
  3. 通用推理(GPQA-Diamond)也不是最好的
  4. 跟上代GLM-5比提升很大,从42.1%到58.4%

2.2 在Claude地盘上的成绩

智谱拿Claude Code当评测框架做了测试。等于是去Claude家考试。

评测环境 GLM-5.1 Claude Opus 4.6 比值 Claude Code 45.3 47.9 94.6%

在“客场”环境下达到对手94.6%的水平,这个比例我觉着说明编程能力确实靠近了。

2.3 数学推理差在哪

模型 AIME 2026 GPT-5.4 98.7% Gemini 3.1 Pro 98.2% GLM-5.1 95.3%

95.3%不差,但跟前两名比确实有三个多点的距离。GLM-5.1不是一个通用推理模型,它的重心就是编程和长程任务。

2.4 一个得说清楚的事

上面所有跑分都是智谱自己报的。之前GLM-5的自报分数后来被第三方基本验证了,但GLM-5.1的独立测评目前还没有。引用数据时记得加上这个注脚。


3.1 啥叫长程任务

以前用大模型的方式是一来一回:你问个问题,它给个答案,几分钟搞定。GLM-5.1支持另一种交互:把一个完整项目丢给它,它自己拆步骤,写代码,跑起来出错了自己调试,循环往复,最多能持续8个小时。

METR评测榜单显示,能做到8小时级别持续工作的开源模型,目前就GLM-5.1一个。闭源的里面Claude Opus 4.6也行。

3.2 有人拿它搭了套Linux桌面

这个测试挺有代表性的:

# 任务:从空白Ubuntu Server起步 # 目标:安装配置一套完整可用的Linux桌面 # 包含:窗口管理、终端、文件管理、浏览器、主题 

GLM-5.1做了什么:

  1. 分析需求,选了Xfce而不是GNOME(资源占用低)
  2. 按顺序跑apt安装
  3. 碰到依赖冲突自己排查修复
  4. 装显示管理器、调主题、配字体
  5. 最后交出可用桌面

中间零人工操作。这跟“帮我写个快排”是两码事。

3.3 API调用示例

import zhipuai

client = zhipuai.ZhipuAI(api_key=“your-key”)

response = client.chat.completions.create(

model="glm-5.1", messages=[ { "role": "system", "content": "你是一个高级后端工程师。" }, { "role": "user", "content": """ 用Go + Gin写一个REST API项目: 1. 用户CRUD四个接口 2. PostgreSQL存储 3. JWT认证中间件 4. 完整单元测试 5. Dockerfile + docker-compose.yml """ } ], max_tokens=, temperature=0.7 

)

print(response.choices[0].message.content)


4.1 本地部署

项目 规格 模型体积 ~1.49TB (BF16) 最低要求 2张H100 80GB 推荐配置 4张H100或8张A100 INT8量化后 约745GB

个人搞本地部署不太现实。但有API——

4.2 API价格

方案 月费 谁用 Coding Lite \(3 个人 Coding Pro \)15 职业开发者 百炼(阿里云) 按量 企业 Claude Max $200 做个参考

3块钱和200块钱,差了66倍。编程场景下这个性价比没法不心动。


问题 描述 处理办法 长上下文质量下降 超150K Token后回答质量掉 控制在120K以内,或者分批 中文注释偶尔不通顺 英文比中文好一些 system prompt里写明要求中文 MoE路由不均匀 偶发某些专家负载偏高 temperature调到0.6-0.8 API超时 长任务有时候断 用流式输出加重连

场景 我推荐 原因 写代码改bug GLM-5.1 SWE-Bench最高分,而且免费 做数学题 GPT-5.4 AIME 98.7%,数学方面它最强 写文章聊天 Claude Opus 4.6 表达流畅度还是它好 预算紧搞快速原型 GLM-5.1 Lite 月费3美元 安全审计 Claude Mythos 得申请,只给特定机构用

GLM-5.1在国产开源大模型里算是个比较像样的成绩单。编程测试拿了当前最高分、8小时长程执行、MIT协议无限制开源、全华为昇腾训练——这几件事放在一起有分量。

但别太上头。数学推理跟GPT-5.4比有差距,SWE-bench Verified也不是第一,聊天写东西不如Claude自然,跑分数据目前只有自报还没第三方验证。定位很明确:一个面向重度编程场景的生产力工具。

再过5天GPT-6就来了,到时候排名表免不了要洗一轮。不过至少在今天,国产开源模型站到了编程能力的最前面,这事值得记一下。


  1. 智谱AI官方文档 - GLM-5.1
  2. Hugging Face - zai-org/GLM-5.1
  3. ChooseAI - GLM-5.1评测
  4. 澎湃新闻 - 智谱正式开源GLM-5.1
  5. Anthropic - Claude Mythos Preview System Card

你用过GLM-5.1了吗?跟Claude比感觉怎么样?评论区聊聊。

本文有帮助的话,点赞收藏关注走一波,持续写AI工具的评测和实战。




小讯
上一篇 2026-04-12 14:30
下一篇 2026-04-12 14:28

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/253867.html