2026年GLM-5.1 接入 Claude Code 三件事:能不能切、值不值得切、什么时候别切

GLM-5.1 接入 Claude Code 三件事:能不能切、值不值得切、什么时候别切文章总结 GLM 5 1 是智谱 2026 年 4 月发布的 754B 参数 MoE 模型 在 SWE BenchPro 以 58 4 分微超 ClaudeOpus4 6 但 NL2Repo 等指标落后 7 1 分 文档提供完整 ClaudeCode 接入配置 包括分层模型映射和故障排查方案 并指出 4 月 30 日后非高峰期成本将从 1 升至 2 抵扣 建议根据任务复杂度选择是否迁移 综合评分 78 文章分类 AI 安全

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



文章总结: GLM-5.1是智谱2026年4月发布的754B参数MoE模型,在SWE-BenchPro以58.4分微超ClaudeOpus4.6,但NL2Repo等指标落后7.1分。文档提供完整ClaudeCode接入配置,包括分层模型映射和故障排查方案,并指出4月30日后非高峰期成本将从1×升至2×抵扣。建议根据任务复杂度选择是否迁移。 综合评分: 78 文章分类: AI安全,技术标准,解决方案,安全工具


cover_image

原创

街边看漫画 街边看漫画

青岩码农兜底日记

2026年4月10日 17:52 广东

在小说阅读器读本章

去阅读

2026-04-08,智谱 Z.AI 发布 GLM-5.1——754B 参数的 MoE 模型,MIT 协议完全开源,官方提供原生 Anthropic 协议(Claude Code 官方兼容接口)接入。中文技术圈当天刷屏的版本是”国产终于追平 Opus”。

先把三条硬事实钉在时间轴上:

  • 2026-04-08:GLM-5.1 正式发布。SWE-Bench Pro 58.4 取得榜单 SOTA,比 Claude Opus 4.6 的 57.3 高 1.1 分。官方博客:z.ai/blog/glm-5.1
  • 2026-04-20:Claude Haiku 3(claude-3-haiku-)正式退役。仍在依赖这个模型的工作流必须迁移,官方来源:platform.claude.com/docs/en/about-claude/model-deprecations
  • 2026-04-30:智谱 Coding Plan(智谱为 Claude Code 等编码工具提供的订阅额度)”非高峰期 1× 抵扣” 限时福利截止。过了这一天,GLM-5.1 的非高峰期消耗系数恢复到 2×,本文后面算的节省比例要相应打折。

锚点问题是:GLM-5.1 真的追平了 Opus 4.6 吗?把 HuggingFace zai-org/GLM-5.1 的完整 README 一条条翻完——答案比那条刷屏的结论复杂得多。GLM-5.1 只在 SWE-Bench Pro(+1.1)和 CyberGym(+2.1)微胜,而在 NL2Repo(自然语言转完整代码库的综合任务)上落后 Opus 4.6 整整 7.1 分,HLE(Humanity’s Last Exam,综合推理基准)无工具版比 Gemini 3.1 Pro 少 14 分,KernelBench(GPU Kernel 优化基准)Level 3 的 GPU Kernel 优化也落后 Opus 约 17%。官方自己的用词是 “overall aligned with Claude Opus 4.6″——对齐,不是超越。

这篇文章聚焦三件事:把接入配置细到读者照抄就能跑,把 Benchmark 差距写清楚(含 GLM-5.1 输的那些指标),把”切 or 不切”的成本账算到一元为止。数据来自 Z.AI 官方博客、HuggingFace 权重页、docs.bigmodel.cnanthropic.com 定价页和 Anthropic 模型退役页(截至 2026-04-10),作者未做个人运行验证。


先把技术规格摆清楚,只写 HuggingFace README 和官方博客明文确认的数字:

  • 总参数量:754B
  • 架构glm_moe_dsa——MoE 结合 Dual Sparse Attention(来自官方博客)
  • 上下文窗口:200K
  • 最大输出:128K tokens
  • License:MIT(完全开源)
  • 训练:异步 RL 基础设施,将 generation 与 training 解耦
  • 本地推理支持:vLLM(v0.19.0+)、SGLang(v0.5.10+)、xLLM、Transformers、KTransformers——官方未提及 Ollama。HuggingFace README 也没提 Ollama。如果某篇博客声称”ollama 一条命令跑 GLM-5.1″,请核对它是不是引用了某个第三方社区镜像。
  • 权重huggingface.co/zai-org/GLM-5.1,BF16/FP8 双格式,同步上架 ModelScope
  • API 渠道api.z.aiopen.bigmodel.cn
  • 发布时间:2026-04-08

官方给的定位原话是 “next-generation flagship model for agentic engineering, with significantly stronger coding capabilities”——为长链路的自主工程任务优化,而不是为单次 benchmark 分数优化。

“SWE-Bench Pro 58.4” 的含义要讲清楚。这是当前 Agentic Coding 领域最受关注的 benchmark,GLM-5.1 以 58.4 vs Opus 4.6 57.3 取得 SOTA。关键词是 SOTA,但差距只有 1.1 分。在任何 benchmark 上,1-2 分的差距都不足以得出”碾压”结论——只能说 GLM-5.1 和 Opus 4.6 在这条赛道上并排。

“原生 Anthropic 协议” 的工程意义。这不是 LiteLLM 这类第三方代理层的协议翻译,而是 Z.AI 直接提供一个符合 Anthropic API 规范的 endpoint:https://open.bigmodel.cn/api/anthropic。前几代国产模型想接 Claude Code 都要走第三方代理层踩协议翻译的坑——GLM-5.1 第一次让”切底层模型”回落到”改一份配置文件”的重量级。读者不需要重装任何工具、不需要改一行业务代码,只要改一份 settings.json,把 ANTHROPIC_BASE_URL 指过去、再配好 API Key,Claude Code 就能无缝切到 GLM-5.1 的底层。


这一节是全文可执行性的核心,细到读者照抄就能跑通,不留任何配置坑。

第一步:在 bigmodel.cn 注册账号 → 个人中心 → API Keys → 创建新 Key。新用户自带免费额度,先跑通流程再决定要不要订阅 Coding Plan。

第二步:编辑 ~/.claude/settings.json,没有这个文件就新建一个:

{   "env": {     "ANTHROPIC_AUTH_TOKEN": "替换为你的智谱 API Key",     "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",     "API_TIMEOUT_MS": "",     "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,     "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1",     "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",     "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air"   } } 

字段逐项解释:

  • ANTHROPIC_AUTH_TOKEN:填智谱 API Key。注意是 AUTH_TOKEN,不是 API_KEY,这是 Claude Code 的惯例字段名。
  • ANTHROPIC_BASE_URL必须是https://open.bigmodel.cn/api/anthropic。配错会触发 1113 余额不足 报错,这是 Z.AI 官方 FAQ 明文给的典型故障原因。也见过有文章写 /api/coding/paas/v4 的——那是错的,别抄。
  • API_TIMEOUT_MS 毫秒 = 50 分钟。给长任务留够时间,避免 Claude Code 默认超时打断 8 小时级别的自主执行。
  • CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC:关掉向 Anthropic 官方上报的 telemetry。你已经切到 Z.AI 了,没必要再往 Anthropic 发遥测。
  • • 三档模型映射:把 Claude Code 内部的 Opus / Sonnet / Haiku 等级路由到 GLM 系列对应档位。详见 §3.2。

第三步:确保 ~/.claude.json 里有这一项,没有就新建:

{   "hasCompletedOnboarding": true } 

这一项来自 Z.AI 官方配置文档。不加它,首次运行 claude 会卡在 onboarding 页面——因为 Claude Code 检测到 Base URL 不是官方的 api.anthropic.com 时,onboarding 流程里的某些校验会失败。显式置为 true 就能跳过。

第四步:终端运行 claude,发一句 echo "Hello GLM-5.1",看是否能正常返回。能走完就是通了。

| 策略 | 配置 | 适用场景 | 成本特征 | | — | — | — | — | | A. 分层映射(推荐) | OPUS → glm-5.1 SONNET → glm-4.7 HAIKU → glm-4.5-air | 日常开发。让 Claude Code 自身的内部路由决定什么任务用 GLM-5.1、什么任务用 GLM-4.7、什么任务用 Air | 高峰期自动避开 GLM-5.1 的 3× 消耗 | | B. 全切映射 | OPUS / SONNET / HAIKU 全部 → glm-5.1 | 追求”GLM-5.1 体感”一致性,或在非高峰时段集中跑高难任务 | 只有福利期内的非高峰期划算(1× 抵扣) |

Z.AI 官方 FAQ 最新版推荐的是策略 A 分层映射,理由是 GLM-4.7 对标 Sonnet 级、日常任务性价比最优。为保守起见(避免低估 Opus 对照),§6 的所有成本测算一律按 GLM-5.1 单价估算。真实分层映射下 Sonnet / Haiku 级任务会路由到更便宜的 GLM-4.7 和 GLM-4.5-air,实际成本会进一步低于本文示例。

注意:官方两份文档(docs.bigmodel.cn/cn/coding-plan/tool/claudedocs.bigmodel.cn/cn/coding-plan/faq)对 SONNET 映射默认值给的是不同答案——前者给 glm-4.7(默认)或 glm-5-turbo(高阶),后者给 glm-4.7。两种都能跑,本文按更新更近的 FAQ 推荐走 glm-4.7

Z.AI 官方文档明确记录:Claude Code v2.1.69 接入非 Anthropic 官方 endpoint 时存在 BUG,表现为 tool search 相关的 experimental beta 特性异常。绕过方法是在启动 claude 之前设置两个环境变量:

export ENABLE_TOOL_SEARCH=0 export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 

或者直接把这两项塞到 §3.1 的 settings.jsonenv 段里,合并后的完整版是这样:

{   "env": {     "ANTHROPIC_AUTH_TOKEN": "替换为你的智谱 API Key",     "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",     "API_TIMEOUT_MS": "",     "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,     "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1",     "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",     "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air",     "ENABLE_TOOL_SEARCH": "0",     "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"   } } 

推荐版本是 v2.1.42(Z.AI 官方标注已验证稳定),或者 claude update 到最新版后自行验证一下基础路径。

| 报错/现象 | 原因 | 解决 | | — | — | — | | 1113 余额不足 | Base URL 配错(最常见),或在不受支持的工具里用 Coding Plan 套餐 | 确认 Base URL 为 https://open.bigmodel.cn/api/anthropic;确认你用的是 Claude Code、Cline、Roo Code、OpenCode 等官方支持列表里的工具 | | 首次启动卡在 onboarding 页 | 缺 hasCompletedOnboarding | 手动编辑 ~/.claude.json 加上 "hasCompletedOnboarding": true | | 长任务中断、超时 | 默认 timeout 太短 | 确认 API_TIMEOUT_MS""(毫秒,即 50 分钟) | | v2.1.69 tool search 异常 | Claude Code 版本 BUG | 设置 ENABLE_TOOL_SEARCH=0CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 |

这四条是配置阶段 90% 的坑。把它们处理完,Claude Code 就能稳定跑在 GLM-5.1 的底层上了。


中文技术圈很少有人把 HuggingFace zai-org/GLM-5.1 的完整 README 表从头到尾翻一遍——因为翻完之后那句”吊打 Opus”就成立不了。这一节的价值就是把原表摆出来,包括 GLM-5.1 输的那些指标。

第一组:统一口径(跨模型可直接比较)

| Benchmark | GLM-5.1 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 | 备注 | | — | — | — | — | — | — | | SWE-Bench Pro | 58.4 | 57.3 | 54.2 | 57.7 | GLM-5.1 SOTA,+1.1 vs Opus | | CyberGym | 68.7 | 66.6 | — | — | GLM-5.1 +2.1 vs Opus | | NL2Repo | 42.7 | 49.8 | 33.4 | 41.3 | Opus 领先 GLM +7.1 | | HLE(无工具) | 31.0 | 36.7 | 45.0 | 39.8 | Gemini 领先 GLM +14.0 | | HLE(w/ Tools) | 52.3 | 53.1 | 51.4 | 52.1 | 四家接近,Opus 微胜 0.8 | | Terminal-Bench 2.0(Terminus-2 裸口径) | 63.5 | 65.4 | 68.5 | — | Gemini > Opus > GLM | | KernelBench Level 3(GPU Kernel,几何均值) | 3.6× | 4.2× | — | — | Opus 领先约 17% |

第二组:agent harness(agent 执行环境/工具链壳)自报口径(跨 harness 不可直接比较)

| Benchmark | 模型 | 分数 | harness 说明 | | — | — | — | — | | Terminal-Bench 2.0 | GLM-5.1 | 69.0 | Claude Code harness | | Terminal-Bench 2.0 | GPT-5.4 | 75.1 | Codex harness |

一条关键的读表规则:只有第一组的数字可以跨模型直接减法比较。第二组的 69.0 和 75.1 是在各自 agent harness 下自报的成绩——就像一场比赛一个选手穿跑鞋、另一个穿钉鞋,数字放在同一列里直接相减就是误导。中文圈最近几天有几篇稿子把 69.0 直接对比 75.1,算出”GPT-5.4 领先 6.1 分”——这是典型的跨 harness 误读。

GLM-5.1 真实胜出的场景:SWE-Bench Pro(+1.1)、CyberGym(+2.1)。两条都是微胜,不是碾压。

Opus 4.6 仍然领先的场景:NL2Repo(+7.1)、HLE w/ Tools(+0.8)、KernelBench Level 3 的 GPU Kernel 优化(4.2× vs 3.6×,领先约 17%)。其中 NL2Repo 的 7.1 分差距非常大——这个 benchmark 考察的是”自然语言需求 → 真实代码仓库级别实现”的综合能力,直接对应”大型代码库综合重构”这类场景。如果你的主要任务就是带着完整仓库上下**大重构,Opus 4.6 仍然明显更强

Gemini 3.1 Pro 是这张表里容易被忽略的位置。Terminus-2 裸口径上 Gemini 是 68.5,比 Opus 的 65.4 高 3.1 分、比 GLM 的 63.5 高 5 分。HLE 无工具版上 Gemini 45.0 领先 GLM-5.1 整整 14 分。想做”裸脑力的纯推理任务”,Gemini 3.1 Pro 在一手数据上是前沿。

HLE 的双口径是最有意思的一组。GLM-5.1 的 HLE 无工具版只有 31.0,明显落后。但 HLE w/ Tools 版跳到 52.3,追平 GPT-5.4(52.1),只落后 Opus 4.6(53.1)0.8 分。这个对比告诉我们:GLM-5.1 的”裸脑力”偏弱,但工具链协同能力很强。对 Claude Code 用户而言这是正面信号——Claude Code 本身就是个工具密集的 agent harness,GLM-5.1 在这类环境下的表现会更接近它的 HLE w/ Tools 数据,而不是 HLE 无工具数据。

不要因为 “SWE-Bench Pro SOTA” 就以为 GLM-5.1 全面超越 Opus 4.6——它没有,差距只有 1.1 分,而且在 NL2Repo、KernelBench、Terminus-2 上仍然落后。

不要因为 HLE 无工具版落后就否定 GLM-5.1 的工程价值——它在工具链密集的 agent harness 下能追平前沿。

官方原话是”overall aligned with Claude Opus 4.6″——对齐,而不是超越。这句话比任何中文标题都更精准。


Benchmark 是单次任务加固定上下文,而真实开发是长链路加不断增长的上下文。长链路会暴露一组 benchmark 分数根本反映不出来的问题:上下文漂移、策略早期枯竭、工具调用堆积、错误传播。Z.AI 把 GLM-5.1 的核心定位放在解决前代模型的 “Plateau Problem”——模型跑几十轮后策略就停滞,没法继续优化。官方博客给出了三个长任务场景,每一个都比 benchmark 分数更能说明”能不能干活”。

  • • 任务:持续优化某向量数据库的查询性能
  • • 基线:50 轮短任务的** QPS 约 3,547
  • • GLM-5.1 执行:600+ 轮自主迭代 + 6,000+ 工具调用
  • • 最终结果:21,500 QPS,约 6× 提升
  • • 一手来源:Z.AI 官方博客 z.ai/blog/glm-5.1

官方描述的关键能力是”在关键节点切换策略”——当一条优化路径收益递减时,GLM-5.1 会主动识别结构性瓶颈并换方向,而不是在同一条路径上反复微调到天荒地老。这是 Plateau Problem 的直接解法:50 轮任务的短窗口让前代模型只能在局部极值附近打转,600+ 轮窗口下模型有空间退回去重写索引结构、换量化方案、调整召回策略。这种”跨阶段切换”的能力,正是 benchmark 分数表达不出来的那一层。

这个场景也是中文圈转发得最多的一条,但很多二手报道把数字写成了”178 轮 1.5×”(典型如 MarkTechPost),和官方数据相差近一个数量级。以官方博客的 600+ 轮 6× 为准

这是官方博客里少有的”Opus 仍然赢”的场景,必须原样呈现。

  • • 任务:KernelBench Level 3 上的 GPU kernel 优化
  • • GLM-5.1:3.6× 加速(50 个问题的几何均值)
  • • Claude Opus 4.6:4.2× 加速(比 GLM-5.1 高约 17%)
  • • 官方原话:GLM-5.1 sustains useful optimization for substantially longer than GLM-5

注意官方这句话里对比的是前代 GLM-5,不是对比 Opus。GLM-5.1 相对前代解决了 Plateau Problem,但在专业领域的 kernel 优化上,Opus 4.6 仍然是那个更强的选手。这对读者的决策含义很具体:如果你的日常工作涉及 CUDA kernel、自定义算子、性能调优内核代码,别切 GLM-5.1

  • • 输入:一句自然语言 prompt,无起始代码
  • • 运行方式:8 小时连续循环,每轮之间模型自我审查
  • • 最终产出:一套完整的浏览器内 Linux 桌面环境,包含文件浏览器、终端、文本编辑器、系统监视器、计算器、几个小游戏

这个场景展示的是”从零到一的持续工程化能力”。没有 scaffolding、没有中途人工干预、没有任务分解模板——一句话进、一个可用产品出。这一条在 benchmark 表里找不到对应项。

这三个场景不是 benchmark 的冗余数据,而是 benchmark 的补集——向量 DB 场景考察”跨 600 轮的策略切换”、GPU Kernel 考察”专业领域的极限工程精度”、Linux 桌面考察”零上下文的从零到一”。三者对应的恰好是三种 benchmark 无法覆盖的维度:长程稳定性、专业深度、零冷启动

  • 适合切换到 GLM-5.1:需要长时间迭代的优化任务、探索性开发、长链路任务 + 成本敏感
  • 继续用 Opus 4.6:GPU kernel 和内核优化、NL2Repo 类大型代码库综合重构、对”裸脑力推理”要求极高的场景
  • 两个都能胜任:日常 bug 修复、中等复杂度的 feature 开发、文档/注释生成、CI 脚本等常规工作

这三类的分工建议是后面 §6 混合路由成本模型的基础。


这一节完全用 Anthropic 官网给的 Opus 4.6 一手定价和 bigmodel.cn 的 GLM-5.1 定价页重算。之前中文圈流传的那组”Opus 一个月 4 万元”的数字是基于错误的 $15/$75 单价——这是凭记忆猜的错数,正确定价是 $5/$25,低了 3 倍。

| 维度 | Claude Opus 4.6 | GLM-5.1(0-32K) | GLM-5.1(32K+) | | — | — | — | — | | 输入(每百万 tokens,USD) | $5 | — | — | | 输出(每百万 tokens,USD) | $25 | — | — | | 输入(CNY,按 ~7.25 汇率示例) | ~36.25 元 | 6 元 | 8 元 | | 输出(CNY) | ~181.25 元 | 24 元 | 28 元 | | 200K+ 上下文溢价(Opus 1M beta) | $10 输入 / $37.50 输出 | — | — |

定价一手来源

  • • Claude Opus 4.6:anthropic.com/news/claude-opus-4-6,原文 “Pricing remains the same at $5/$25 per million tokens”。超 200K 上下文的 1M beta 区段适用 $10/$37.50 溢价。
  • • GLM-5.1:bigmodel.cn/pricing
  • • 汇率按 ~7.25 CNY/USD 示例换算,实际以当前汇率为准。

GLM-5.1 输入约为 Opus 的 1/6,输出约为 1/7.5——这是节省比例的硬底。

对于订阅制的读者,Z.AI Coding Plan 的配额来自官方 FAQ:

| 套餐 | 每 5h 限额 | 每周限额 | MCP 月度配额 | | — | — | — | — | | Lite | ~80 prompts | ~400 prompts | 100 次 | | Pro | ~400 prompts | ~2,000 prompts | 1,000 次 | | Max | ~1,600 prompts | ~8,000 prompts | 4,000 次 |

一次 prompt 大约触发 15-20 次模型调用。官方 FAQ 原话形容 Coding Plan “相当于月订阅费用的 15-30 倍 token 额度”——这是一种大幅折扣,不是加价。三档月度订阅价格官方定价页未直接列出,需要登录 bigmodel.cn 后台查看当前报价。

假设前提(显式声明,避免读者误以为是官方统计)

  • • 工作日约 22 天/月
  • • Opus 4.6 与 GLM-5.1 tokens 消耗相同(忽略模型差异导致的 token 密度差)
  • • GLM-5.1 用 0-32K 档定价(6 元 / 24 元)
  • 本示例一律按 GLM-5.1 单价估算,不区分分层映射(真实分层路由下 Sonnet / Haiku 级任务走更便宜的 GLM-4.7 / GLM-4.5-air,实际成本会更低,保守估算不影响”切 or 不切”的结论)
  • • 所有数字仅作示例测算,不代表任何读者的真实账单

示例 A:轻度工作负载(每日 2M input + 0.5M output)

  • • Opus 4.6:22 × (2 × 36.25 + 0.5 × 181.25) ≈ 3,588 元 / 月
  • • GLM-5.1:22 × (2 × 6 + 0.5 × 24) ≈ 528 元 / 月
  • • 节省约 85%

示例 B:中度工作负载(每日 8M input + 2M output)

  • • Opus 4.6:22 × (8 × 36.25 + 2 × 181.25) ≈ 14,355 元 / 月
  • • GLM-5.1:22 × (8 × 6 + 2 × 24) ≈ 2,112 元 / 月
  • • 节省约 85%

示例 C:重度工作负载(每日 20M input + 5M output)

  • • Opus 4.6:22 × (20 × 36.25 + 5 × 181.25) ≈ 35,888 元 / 月
  • • GLM-5.1:22 × (20 × 6 + 5 × 24) ≈ 5,280 元 / 月
  • • 节省约 85%

三档的节省比例都是 85%,因为 GLM-5.1 对 Opus 4.6 的单位成本比例基本不随调用量变化。差别只在绝对金额——轻度每月差约 3,060 元,重度每月差超过 3 万元(精确值约 30,608 元)。

全切 GLM-5.1 不是最优解。把关键场景(NL2Repo 类大型重构、GPU Kernel、需要最好裸脑力的推理)留给 Opus 4.6,日常切给 GLM-5.1——这种混合路由在多数场景下是更好的选择。

以示例 B 中度工作负载为例,80% GLM-5.1 + 20% Opus 4.6

  • • 成本:0.8 × 2,112 + 0.2 × 14,355 = 4,560.6 ≈ 4,561 元 / 月
  • • vs 纯 Opus 基线 14,355 元:节省约 68%
  • • vs 纯 GLM 方案 2,112 元:月均多花 ~2,449 元换取 Opus 的质量兜底

4,561 元是混合路由的平衡点:关键场景保留 Opus 的质量兜底,占 80% 时间的日常任务压到 GLM-5.1 的成本线上。对大多数 Claude Code 用户来说,这比”情绪化全切”更划算。

Coding Plan 订阅制的读者需要额外注意消耗系数——它会直接改变决策。

  • 高峰期(每日 14:00–18:00 UTC+8):GLM-5.1 / GLM-5-Turbo 按 3× 消耗
  • 非高峰期:按 2× 消耗
  • 限时福利(截至 2026-04-30):非高峰期 GLM-5.1 / GLM-5-Turbo 恢复到 1× 消耗

换算到 Max 套餐的 8,000 prompts/周:

  • • 非高峰期福利期全用 GLM-5.1:等效 8,000 prompts 额度
  • • 高峰期全用 GLM-5.1:只能跑约 2,666 prompts(除以 3)

具体策略:高峰期让 Claude Code 路由到 GLM-4.7(分层映射会自动做这件事),非高峰期才跑 GLM-5.1 的重任务。4 月 30 日之前是性价比最高的窗口——过了这个日期,非高峰系数恢复到 2×,上面测算的成本优势要相应打折。


这一节不写主观猜测,只写有一手证据的局限。

  • NL2Repo 落后 Opus 4.6 共 7.1 分:这是”自然语言 → 代码库”的综合任务,直接对应大型代码库综合重构场景。差 7 分是结构性差距,不是数据抖动。
  • Terminus-2 裸口径落后 Gemini 3.1 Pro 5 分、落后 Opus 1.9 分:纯 terminal 交互能力上 GLM-5.1 是对照组的末位。
  • HLE 无工具版落后 Gemini 3.1 Pro 14 分:说明 GLM-5.1 的”裸脑力”明显弱于 Gemini 前沿。
  • KernelBench Level 3 落后 Opus 4.6 约 17%(3.6× vs 4.2×):专业 GPU Kernel 优化 Opus 仍然更强。
  • • Claude Code v2.1.69 存在 BUG,必须通过 ENABLE_TOOL_SEARCH=0CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1 绕过。
  • • Coding Plan 套餐仅限 Claude Code、Cline、Roo Code、OpenCode、TRAE、Kilo Code、CodeBuddy、OpenClaw 等官方支持列表里的工具。在上述工具外直接调 API,套餐额度不抵扣,走按量计费。
  • • “1113 余额不足”报错通常是 Base URL 配错或工具不在支持列表。
  • • 套餐不支持退款。额度耗尽后 5 小时周期内不会自动扣账户余额。
  • • 高峰期 14:00-18:00 UTC+8 跑 GLM-5.1 按 3× 消耗,会快速烧光订阅额度。
  • • 非高峰期 1× 抵扣福利截至 2026-04-30。过期后非高峰系数恢复到 2×,本文 §6 的成本测算要相应打折。
  • • 本文所有配置、定价、模型 ID 基于 2026-04-10 状态,后续以 docs.bigmodel.cnanthropic.com 官方页为准。

  • • 每天的主要任务是大型代码库综合重构(NL2Repo 落后 7.1 分)
  • • GPU Kernel、CUDA、自定义算子、内核优化(KernelBench 落后 17%)
  • • 纯推理类、对”无工具裸脑力”要求最高的任务(HLE 无工具落后 14 分,Gemini 3.1 Pro 更合适)
  • • 每天必须在 14:00-18:00 高峰时段集中工作(订阅制下 3× 消耗不划算)
  • • 长期项目里依赖 Opus 4.6 的风格稳定性,不愿承担模型行为差异的场景

对有 Opus 忠诚度的读者还有一条安抚信息:Anthropic 官方模型退役页给出的 Opus 4.6 最早退役保障日期是 2027-02-05,至少还有 10 个月的稳定期,不用急着做二选一的抉择。


  1. 1. 注册 bigmodel.cn 账号,创建 API Key
  2. 2. 按 §3.1 配置 /.claude/settings.json 和 /.claude.json
  3. 3. 终端运行 claude,发送一句 echo “Hello GLM-5.1”

成功判定:在 Claude Code 中运行 /status 命令,能看到当前模型映射为 glm-5.1 / glm-4.7 / glm-4.5-air,首次发送的测试消息收到正常返回。

失败排查1113 报错 → 检查 Base URL 是否为 https://open.bigmodel.cn/api/anthropic。卡在 onboarding 页 → 检查 ~/.claude.json 是否含 hasCompletedOnboarding: true。v2.1.69 工具异常 → 设置 ENABLE_TOOL_SEARCH=0 和 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1

  1. 1. 选一个 Claude Code 最擅长的轻量场景:读取几个源文件、生成一段 TypeScript 类型定义、跑一次简单 refactor
  2. 2. 观察 GLM-5.1 的输出风格、工具调用节奏、代码质量
  3. 3. 用 3-5 轮连续对话,看它的上下文保持能力

成功判定:能完成 1-3 轮连续对话无 timeout,生成的代码能跑、工具调用行为合理、和 Claude Code 原生 Opus 的体感没有显著断层。

失败排查:长对话 timeout → 检查 API_TIMEOUT_MS 为 “”。工具调用行为异常 → 确认已加 ENABLE_TOOL_SEARCH=0。输出明显劣化 → 切一次 §3.2 的策略 B 全切映射,确认是不是 GLM-4.7 本身的问题。

  1. 1. 按 §3.2 策略 A 配置分层映射(OPUS → glm-5.1,SONNET → glm-4.7,HAIKU → glm-4.5-air
  2. 2. 用一周时间观察:每日 token 消耗、Coding Plan 额度消耗速度、任务成功率
  3. 3. 把 §5.4 和 §7.4 里的”不建议切换场景”保留给原 Opus 4.6——即 §6.4 的混合路由策略
  4. 4. 在 14:00-18:00 高峰期尽量把重任务推迟到非高峰时段(福利期内)

成功判定:一周结束时对比之前的 Opus 账单,节省至少 50%;任务成功率下降不超过 10%;没有遇到无法通过配置修复的硬故障。

失败排查:成本没降下来 → 检查是否在高峰期集中用了 GLM-5.1(3× 消耗)。成功率下降过多 → 把关键任务回切 Opus 4.6,重新校准混合比例。遇到特定任务反复失败 → 回看 §4 和 §7,确认这个任务是否落在了 GLM-5.1 的弱势指标上。


2026-04-30 是最后的福利窗口。过了这一天,非高峰期系数从 1× 恢复到 2×,上面算的所有节省比例要相应打折。2026-04-20 是 Claude Haiku 3 的正式退役日,仍在依赖那个模型的工作流必须迁。Opus 4.6 至少保障到 2027-02-05,所以切 GLM-5.1 的决策不是”要不要抛弃 Opus”,而是”哪些场景值得换、哪些场景继续留”——本文已经把那张决策表的四个象限都填好了,剩下的就看你手上的日常任务长什么样。

如果你手头正有 Claude Code 环境,最直接的行动是现在就按 §8.1 跑一遍 10 分钟级的 Hello World——哪怕只确认”能跑通”这一件事,也能在下一次账单决策时比什么都不做更接近答案。退一步,至少把这篇收藏起来,等到账单到的时候再翻一遍。


参考资料

  • • Z.AI 官方 GLM-5.1 发布博客:https://z.ai/blog/glm-5.1
  • • HuggingFace GLM-5.1 权重与 README:https://huggingface.co/zai-org/GLM-5.1
  • • Z.AI Claude Code 官方配置文档:https://docs.bigmodel.cn/cn/coding-plan/tool/claude
  • • Z.AI Coding Plan FAQ:https://docs.bigmodel.cn/cn/coding-plan/faq
  • • Z.AI 定价页:https://bigmodel.cn/pricing
  • • Anthropic Claude Opus 4.6 发布与定价:https://www.anthropic.com/news/claude-opus-4-6
  • • Anthropic 模型退役页:https://platform.claude.com/docs/en/about-claude/model-deprecations

免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:青岩码农兜底日记 街边看漫画

 街边看漫画《GLM-5.1 接入 Claude Code 三件事:能不能切、值不值得切、什么时候别切》

小讯
上一篇 2026-04-20 15:08
下一篇 2026-04-20 15:06

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/270736.html