4月8号智谱开源了GLM-5.1,744B参数MoE架构,SWE-Bench Pro编程测试拿了58.4%,比GPT-5.4的57.7%和Claude Opus 4.6的57.3%都高。本文从架构设计、训练设施、跑分对比、实际体验和选型几个角度做一次完整的技术拆解,附代码和踩坑经验。
4月8号这天挺有戏。Anthropic放了个Claude Mythos Preview出来,测试里挖到几千个零日漏洞,结果自己吓得不敢给公众用;同一天智谱把GLM-5.1以MIT协议丢到了Hugging Face上。一边是能力太强引发的安全焦虑,一边是把顶级能力免费送出去。我比较关心后面那个——对日常写代码到底有没有用。

1.1 MoE混合专家
GLM-5.1用的是MoE(Mixture of Experts)架构。跟传统Dense模型不一样的地方在于:参数量很大,但每次推理只激活一小部分。
256个专家,推理时只调8个出来干活,相当于一个744B的模型以40B的计算量在跑。好处很直接:训练时知识够多(所有专家都参与),推理时不费电(只用40B的计算量)。
1.2 DeepSeek Sparse Attention
200K Token的上下文用普通Transformer的Full Attention根本算不过来。原始注意力是O(n²)的复杂度,200K Token就是400亿次运算。
Sparse Attention的思路是不全算——Token之间不是每对都需要关注,只算有实际关联的那些。计算量压下去了,长文本理解能力基本保住。
# 算一下数量级差异 import math
seq_len = 200_000 # 200K
# Full Attention: O(n²) full_ops = seq_len 2 print(f“Full: {full_ops:,.0f}”)
# 40,000,000,000
# Sparse: 大致 O(n * sqrt(n)) sparse_ops = seq_len * int(math.sqrt(seq_len)) print(f“Sparse: {sparse_ops:,.0f}”)
# 89,442,720
print(f“差了 {full_ops / sparse_ops:.0f} 倍”)
# ~447倍
工程实现里压缩比没这么夸张,但数量级上的差异确实在。
1.3 训练用的什么硬件
这部分我觉得比模型本身更值得说:
- 芯片:10万块华为昇腾910B
- 框架:MindSpore
- 英伟达:一块都没有
上周DeepSeek V4也宣布转投华为昇腾了。两个月内两个世界级模型都不依赖英伟达完成了训练,这不再是新闻,而是正在变成常态。
2.1 SWE-Bench Pro横向对比
SWE-Bench Pro测的是在真实GitHub仓库里定位和修复bug的能力。不是那种多选填空,是实际改代码。
看下来:
- SWE-Bench Pro确实是目前最高分,比GPT-5.4高了0.7个点
- 但SWE-bench Verified(另一个变体)落后Claude三个点
- 通用推理(GPQA-Diamond)也不是最好的
- 跟上代GLM-5比提升很大,从42.1%到58.4%
2.2 在Claude地盘上的成绩
智谱拿Claude Code当评测框架做了测试。等于是去Claude家考试。
在“客场”环境下达到对手94.6%的水平,这个比例我觉着说明编程能力确实靠近了。
2.3 数学推理差在哪
95.3%不差,但跟前两名比确实有三个多点的距离。GLM-5.1不是一个通用推理模型,它的重心就是编程和长程任务。
2.4 一个得说清楚的事
上面所有跑分都是智谱自己报的。之前GLM-5的自报分数后来被第三方基本验证了,但GLM-5.1的独立测评目前还没有。引用数据时记得加上这个注脚。
3.1 啥叫长程任务
以前用大模型的方式是一来一回:你问个问题,它给个答案,几分钟搞定。GLM-5.1支持另一种交互:把一个完整项目丢给它,它自己拆步骤,写代码,跑起来出错了自己调试,循环往复,最多能持续8个小时。
METR评测榜单显示,能做到8小时级别持续工作的开源模型,目前就GLM-5.1一个。闭源的里面Claude Opus 4.6也行。
3.2 有人拿它搭了套Linux桌面
这个测试挺有代表性的:
# 任务:从空白Ubuntu Server起步 # 目标:安装配置一套完整可用的Linux桌面 # 包含:窗口管理、终端、文件管理、浏览器、主题
GLM-5.1做了什么:
- 分析需求,选了Xfce而不是GNOME(资源占用低)
- 按顺序跑apt安装
- 碰到依赖冲突自己排查修复
- 装显示管理器、调主题、配字体
- 最后交出可用桌面
中间零人工操作。这跟“帮我写个快排”是两码事。
3.3 API调用示例
import zhipuai
client = zhipuai.ZhipuAI(api_key=“your-key”)
response = client.chat.completions.create(
model="glm-5.1", messages=[ { "role": "system", "content": "你是一个高级后端工程师。" }, { "role": "user", "content": """ 用Go + Gin写一个REST API项目: 1. 用户CRUD四个接口 2. PostgreSQL存储 3. JWT认证中间件 4. 完整单元测试 5. Dockerfile + docker-compose.yml """ } ], max_tokens=, temperature=0.7
)
print(response.choices[0].message.content)
4.1 本地部署
个人搞本地部署不太现实。但有API——
4.2 API价格
3块钱和200块钱,差了66倍。编程场景下这个性价比没法不心动。
GLM-5.1在国产开源大模型里算是个比较像样的成绩单。编程测试拿了当前最高分、8小时长程执行、MIT协议无限制开源、全华为昇腾训练——这几件事放在一起有分量。
但别太上头。数学推理跟GPT-5.4比有差距,SWE-bench Verified也不是第一,聊天写东西不如Claude自然,跑分数据目前只有自报还没第三方验证。定位很明确:一个面向重度编程场景的生产力工具。
再过5天GPT-6就来了,到时候排名表免不了要洗一轮。不过至少在今天,国产开源模型站到了编程能力的最前面,这事值得记一下。
- 智谱AI官方文档 - GLM-5.1
- Hugging Face - zai-org/GLM-5.1
- ChooseAI - GLM-5.1评测
- 澎湃新闻 - 智谱正式开源GLM-5.1
- Anthropic - Claude Mythos Preview System Card
你用过GLM-5.1了吗?跟Claude比感觉怎么样?评论区聊聊。
本文有帮助的话,点赞收藏关注走一波,持续写AI工具的评测和实战。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/253867.html