MODEL
在动手之前,先简单介绍一下 GLM-5.1 这个模型。
实测下来,我觉得智谱 GLM-5.1 实现了编程能力的SOTA:面向长程任务的开源第一模型。
什么叫长程任务?就是那种不是一句 Prompt 能搞定的复杂任务。它需要跨步骤、跨工具、持续好几个小时推进,中间还可能出各种意外,需要自主规划、自主执行、自主纠错。
METR 研究显示,在编程等领域,AI 能以 50% 成功率完成的任务复杂度(以人类专家耗时衡量)正呈指数级增长,近期加速至每 4–6 个月翻倍。
GLM-5.1 在这个方向上做了系统性的优化,总结为下图的三大核心能力:
从数据上看,GLM-5.1 在 SWE-Bench和 Artificial Analysis等核心评测中位列开源第一,
评测数据图片
OpenRouter上的调用量近期也排在开源模型前列。海外开发者社区对它评价极高,不少人直接称它为「开源模型的新王」。
海外老哥评价
YouTube 博主 AICodeKing 在 测试中也给出了开源第一的排名。
AI Coding 其实有一条非常清晰的跃迁路径:
AI Coding → Vibe Coding → Agentic → Long Horizon
GLM-5.1 正是面向 Long Horizon 这个阶段的产物。同时,长时任务也是 Harness Engineering 实践中不可缺少的一环,它「让模型像一个资深工程师一样持续工作、交付成果」。
即日起,GLM-5.1在Hugging Face与ModelScope平台同步开源,模型权重遵循 MIT License。
GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite),支持 Claude Code、OpenCode等主流开发工具。
说了这么多,空口无凭。最好的验证方式,就是拿一个真实项目来跑。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/251780.html