2026年GLM-5.1正面硬刚Claude Opus 4.6,三个“绊子”测试结果惊人播报文章

GLM-5.1正面硬刚Claude Opus 4.6,三个“绊子”测试结果惊人播报文章2026 年 4 月 8 日 智谱正式开源了他们家的最强模型 GLM 5 1 这模型可真不简单 在专业软件开发基准测试 SWE BenchPro 里 它直接刷新了全球**成绩 得分飙到 58 4 把 GPT 5 4 Claude Opus 4 6 这些闭源模型 还有 MiniMax M2 7 Kimi K2 5 等开源模型都甩在了身后 GLM 5 1 是专门为长程任务设计的 能自己规划 执行 还能不断迭代

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



  2026年4月8日,智谱正式开源了他们家的最强模型GLM-5.1,这模型可真不简单。在专业软件开发基准测试SWE-BenchPro里,它直接刷新了全球**成绩,得分飙到58.4,把GPT-5.4、Claude Opus 4.6这些闭源模型,还有MiniMax M2.7、Kimi K2.5等开源模型都甩在了身后。GLM-5.1是专门为长程任务设计的,能自己规划、执行,还能不断迭代,最后交出完整的工程结果。官方说,这模型干的活相当于4人小团队连轴转一周的工作量,成了全球首个在真实工程任务中验证这种能力的开源模型。它的推文12小时内阅读量就冲破200万次,现在已经到227万次了。不少网友都说用起来跟Claude Opus 4.6差不多,AI开发者toli测试了113个编程任务后,觉得体感和Opus一样;智谱的CodingPlan用量是Claude Code订阅的三倍,价格却只有后者的1/3。开发者Beau Johnson把OpenClaw背后的模型从Opus 4.6换成GLM-5.1,体验没差别,成本却从1000美元降到了30美元左右。软件定制公司Zenoware创始人JP用GLM-5.1 one - shot完成了10个案例,觉得它是最接近Claude Opus 4.6的中国模型。

  在编程能力这块,GLM-5.1在SWE-BenchPro、Terminal-Bench2.0、NL2Repo三个基准测试里,分别排全球第三、国产第一、开源第一;在DesignArena排第四,好几款GLM模型包揽了前四名,能和Opus 4.6、Sonnet 4.6掰掰手腕;在文本能力维度TextArena上,被评为排名第一的开源模型。为了测试GLM-5.1的真实表现,还搞了实际工程任务考验。从零搭建待办看板,前后端加数据库全闭环都实现了,网页UI细节也很到位,字体大小层级分明,光标悬停还有微动效,还用颜**分了任务优先级。这都多亏了智谱训练策略的创新,他们扩展了任务过程训练窗口,采用多轮监督微调与强化学习结合的训练范式,让模型能在“接受任务→规划→执行→调整→交付”整个过程中学习,不会因为新指令就跑偏。还有个任务是搭建简易电商后台,快完成的时候掐断网络、关闭上下文窗口,看看它应对突发情况的能力。

  GLM-5.1不光跑分厉害,还能长时间工作。比如8小时从零构建Linux桌面系统,包括完整桌面、窗口管理器、状态栏这些,相当于4人团队一周的工作量,而且全程没人参与测试审查,它还会给自己的代码写回归测试并且通过了。知乎程序员博主Toyamanao测试它完成三个工程项目后,觉得它大大扩展了编程适应范围,在复杂工况下能当编程主力,但也指出超长上下文时容易出现幻觉爆炸,如果两轮改不好问题就得重开。去年年底AI智能体大概能完成20个步骤,现在GLM-5.1能完成1700个步骤,这可是模型“独立工作”的分水岭。它的关键突破在于能在固定策略内增量调优,收益停滞时会主动分析日志、定位瓶颈,然后换不同的方案。就像向量数据库优化案例里,经过655次迭代,查询吞吐从3108QPS提升到21472QPS,涨了6.9倍,过程中完成了各种优化。在KernelBenchLevel3优化基准上,对50个真实机器学习计算负载不间断迭代超24小时,取得3.6倍几何平均加速比,比torch.compile max - autotune模式的1.49倍高不少,还能自己编写定制Triton Kernel和CUDA Kernel等。在VendingBench2基准中,模拟经营一年自动售货机业务,最后账户余额有4432美元,在开源模型里排第一,接近Claude Opus 4.5的水平。另外,GLM-5.1有744B参数,不用英伟达芯片,成本降低了97%。HuggingFace CEO Clement Delangue都发推祝贺它开源,说它是SWE-Bench Pro上表现最好的模型。

小讯
上一篇 2026-04-25 14:53
下一篇 2026-04-25 14:51

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/273740.html