智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1

智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1智谱今日正式发布新一代开源模型 GLM 5 1 官方称这是目前全球最强的开源模型 据官方介绍 其是唯一达到 8 小时级持续工作的开源模型 在最接近真实软件开发的 SWE bench Pro 基准测试中 GLM 5 1 实现国产模型首次超越 Opus 4 6 OpenRouter 显示 伴随此次发布 智谱 GLM 再度提价 10 调价后 GLM 5 1 在 Coding

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



  智谱今日正式发布新一代开源模型 GLM-5.1,官方称这是目前全球最强的开源模型。据官方介绍,其是唯一达到 8 小时级持续工作的开源模型,在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 实现国产模型首次超越 Opus 4.6。

  OpenRouter 显示,伴随此次发布,智谱 GLM 再度提价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

  官方详细介绍如下:

  从 3 分钟的 Vibe Coding(氛围编程)到 30 分钟的 Agentic Engineering(智能体工程),再到本次我们带来的 8 小时 Long-Horizon Task(长程任务),GLM-5.1 再次取得突破。

1.jpg

  GLM-5.1 是我们迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1 大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过 8 小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

  代码能力是模型智能水平进一步提升的关键。下图是业内最具代表性的三个代码评测基准的平均结果,包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo,GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

2.jpg

  在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 刷新全球**成绩,超过 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是衡量模型能否胜任专业软件开发的最硬指标。

小讯
上一篇 2026-04-08 18:11
下一篇 2026-04-08 18:09

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/251844.html