开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？丨302.AI 基准实验室

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

4 月 8 日，智谱正式开源了 GLM 最新的 5.1 版本。GLM-5.1 是一次方向极其明确的版本更新——将模型的能力重心推向了一个具体问题：能否在长时间任务中持续工作，并且持续产生有效结果。

开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？丨302.AI 基准实验室

作为基于 GLM-5 后训练演进而来的旗舰模型，GLM-5.1 把重点放在了转向长时间任务中的有效性提升上。而从结果来看，这一方向已经带来了相当直接的性能回报。在最具代表性的工程类基准测试中，GLM-5.1 取得了目前开源模型中的顶级成绩：

在 SWE-Bench Pro上以 58.4 分登顶，超过 GPT-5.4 与 Claude Opus 4.6；同时在 Terminal-Bench 2.0 与 NL2Repo 等任务中保持全球前三、开源第一的综合表现。这意味着，在“真实软件工程问题”这一最接近生产环境的维度上，开源模型首次真正进入第一梯队。

相比更强的代码生成能力，GLM-5.1 还有一个更值得关注的标签：长程任务（Long-Horizon Task）能力。

不同于以往以分钟为单位的交互式调用，GLM-5.1 可以在单次任务中持续长时间运行，在数百到上千轮迭代中，自主完成“实验 → 分析 → 调整 → 再验证”的完整循环。这种能力在实测场景中被具体化：在没有明确评价指标的情况下，模型连续运行 8 小时，从零构建出了一个完整的 Web 版 Linux 桌面系统。

这体现出的是 GLM-5.1 与前代模型，甚至与一部分同级别模型之间最核心的差异——模型不再只是执行任务，而是开始具备把任务不断做好的能力。

此外，作为一个采用 MIT 协议开源、并在编程基准上进入全球第一梯队的模型，GLM-5.1 也进一步压缩了开源与闭源之间的能力差距。

一方面，它在编程这一高价值场景中，首次实现了对顶级闭源模型的单项超越；另一方面，模型完全基于国产算力训练完成，并许可证开源，在可用性与商业化路径上进一步降低门槛。

这使得 GLM-5.1 的影响不再局限于更强的国产模型，而是在于开源模型在关键能力维度上正重新定义技术边界。

接下来，302.AI将通过一系列案例，对其进行实测，看看它在真实开发场景中的表现究竟如何。

本评测侧重模型对逻辑，数学，编程，多模态，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学（共10题），人类直觉（共7题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

GLM-5.1 完整推测出两种情况

GLM-5 只推测出了一种情况

GLM-5.1 绘制的图形构造已经没有太大问题，自行车结构也较为稳定，相对运动方向合理，但鹈鹕腿部与踏板连接问题仍未完美处理。

GLM-5 绘制的鹈鹕骑车，动态但原地踏步，运动状态实现较差，

附 Claude Opus 4.6 效果：画面构成细节更丰富，但依然处理不好腿部和踏板连接问题。

GLM-5.1 的输出在视觉上独具氛围感，细看花田建模略草率，但加分点也很明确：三个风车的转动效果是错落呈现的。

GLM-5 输出的图形大部分由色块组成，效果较差。

附 Claude Opus 4.6 效果：细节元素较齐全，视觉风格上略显粗糙。

GLM-5.1 输出效果：

✅ 优势项：

❌ 缺陷：

GLM-5 输出效果：

视觉设计更前卫，但是细节把控有瑕疵，例如模态框内容单一、深色模式切换按钮不可用。

附 Claude Opus 4.6 输出效果：

视觉设计高级，整体呈现出一种冷静内省的侘寂风或极简主义美学，代码结构优雅简洁，也因极简而牺牲了一些细节（如模态框文字内容单一机械）

GLM-5.1 输出效果：

✅ 优势项：

光照与氛围实现是最大亮点。背景实现非常细节（包括天空渐变、远景山丘、地面雾气、丁达尔光柱等效果）
每个阶段的出现和消失（如种子的渐隐、树苗的覆盖）都用了clamp和ease函数进行平滑插值，没有生硬的切换感

❌ 缺陷：

GLM-5 输出效果：

输出的粒子数量和特效复杂度控制得较好，在视觉效果和性能之间取得了不错的平衡，只在视觉表现和细节上逊色于 GLM-5.1。

附 Claude Opus 4.6 输出效果：

代码架构最清晰，输出了一个优秀的算法演示，展现出极强的复杂算法掌控力，只有视觉表现稍显克制。

以上测评案例本身已经清晰地描摹了模型的能力轮廓，但比起各项维度的性能提升，GLM-5.1 在任务执行方式上的变化更加值得关注：

GLM-5.1 最核心的提升，在于持续工作能力的质量跃升，即模型的能力重心，从单次输出质量转向长时间任务中的有效性。

这一点在复杂任务中尤为明显——模型不是一次性给出答案，而是在逐步逼近一个更合理的解。实测过程中能明显感受到，模型在输出和执行任务时不会急于收敛，而是主动回看关键决策点结果，反复进行验证与自我修正，再继续向前推进，这种“实验 → 分析 → 调整 → 再验证”的完整循环，使得它在长流程任务中不容易早早陷入停滞，并提升了最优解质量。

此外，一个比较明显的体感是，GLM-5.1 在面对连续修改、补充要求时，不容易跑偏或跟丢上下文目标。即使任务被多次打断或叠加新需求，它仍然能维持整体结构的一致性，这本质上反映出了模型在长上下文中具备极强的的状态管理能力。

从整体表现来看，GLM-5.1 的编程能力已经稳稳进入当前第一梯队，尤其是在项目级任务中，表现出很强的结构组织能力与细节补全能力，交付结果甚至与顶尖闭源模型 Claude Opus 4.6 不相上下。

无论是页面构建、动画实现还是逻辑推理类问题，其交付的共同特征都是：倾向于把东西做完整，并在过程中不断补齐细节。从具体案例来看，这一特征在大多数场景下属于优势项，比如网页、动画、交互类任务中，模型往往会主动构建精美的交互细节、增强视觉表现力，交付结果别具“氛围感”。

而这种优势主要作用于工程执行与优化路径上，在某些极限设计感或高度抽象的表达，例如案例 3 中特别要求“克制”的视觉风格取舍上，以及案例 4 中动用大量代码实现的细节堆砌上，模型的输出会偏向于“做满”而不是“做减”，有一种“用力过猛”的趋势。

由此可见，GLM-5.1 的交付表现更偏完整交付而非单点极限。换句话说，GLM-5.1 更像一个执行力很强的工程型模型，而不是刻意追求某一维度极致表达的模型。

说回开发者最关注的话题，放在更大的语境下看，GLM-5.1 的意义在于：其在编程这一最接近真实生产环境的场景中，已经能够与顶级闭源模型正面对比，并在部分关键基准上实现反超——这种原本只存在于闭源阵营中的领先表现，这一次站在了开源模型这一边。

结合其开源属性与实际可用性，带来的变化是直接且现实的：开源模型不再只是性价比权衡之下的被动选择，而开始成为可以进入实际生产流程的优质选择。

尤其是在长程任务能力逐渐成为核心指标的背景下，GLM-5.1 所展现出的，是一种更接近“可替代一段时间人类工作”的能力形态。

正如智谱官方所说：

“GLM-5.1不只是一个更强的模型，而是一种新的技术范式的开启。此刻，尝试给它一个指令，然后离开 8 小时。”

届时，真正被改变的已不再是模型，而是工作方式。

步骤指引：对话框内选择模型菜单