智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略

智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略p style text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

Zhipu-AI-Linux-Desktop-VS-055

智谱AI已发布其新GLM-5.1模型,授权为MIT授权。据报道,该模型在处理编码任务时,可以经过数百次迭代不断完善自身方法。

智谱AI推出了GLM-5.1,一款专为长期运行的基于代理的编程任务设计的开权重模型。核心论点是:现有模型,包括志浦的前身GLM-5,在复杂问题上过快就没有新思路。他们采用熟悉的策略,早期取得进展,然后遇到瓶颈。给问题投入更多计算量也无济于事。

GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。

公司用三种情景来演示这一点,尽管这些场景均在内部进行。目前还没有独立评估。

GLM-5.1 在任务中途自动切换策略

在第一种情景中,GLM-5.1 需要优化向量数据库——一个搜索大量数据集并寻找相似条目的系统。目标是:在不丢失准确性的情况下,每秒尽可能多地回答搜索查询。根据Zhipu AI的数据,在一次50轮的标准测试运行中,Claude Opus 4.6保持了3,547次查询/秒的最高得分。

相反,智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用,公司表示,查询量达到了每秒21,500次——大约是之前**水平的六倍。

智谱表示,该模型在运行期间多次根本性地改变了策略。大约在第90次迭代时,它从对所有数据进行穷尽搜索转向了更高效的聚类方法。大约在第240次迭代时,它引入了两级流水线,先进行粗略的预排序,然后进行精确过滤。公司在整个播出过程中识别出六个此类结构性转变,每一次均由模型自身引发。

GPU优化显示了进步,但没有达到顶峰

在第二种情景中,模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称,GLM-5.1实现了基线实现的3.6倍加速,并在后续阶段持续取得进展。相比之下,GLM-5则更早就达到了瓶颈。

zhipu-ai-glm-5-1-benchmarks-20260407-235121-scaled

Claude Opus 4.6在本次测试中明显领先,速度提升了4.2倍,且末期仍有提升空间。GLM-5.1相比前代延长了生产时间,但并未缩短与最强竞争对手的差距。

一个基于单一提示的Linux桌面

第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境,作为一个网页应用——没有起始代码,没有中间指令。大多数型号提供一个基础外壳,带有任务栏和几个占位窗口,然后就完成任务,Zhipu AI表示。

GLM-5.1被放入一个循环,每轮后会回顾自己的输出,决定哪些还缺失或需要改进。经过八小时的开发,最终呈现了一个功能齐全的桌面环境,配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏,公司表示。

编程强,推理较弱

除了这三个演示,智谱AI还发布了一张基准表,描绘了更为细致的画面。在编码方面,GLM-5.1在多个测试中领先或匹敌竞争对手。在软件工程基准测试SWE-Bench Pro上,该测试得分为58.4%,是所有测试的免费模型中最高,略高于GPT-5.4(57.7%)和Claude Opus 4.6(57.3%)。在网络安全基准测试CyberGym上,它以68.7分获得最高分。不过,智谱AI也承认,Gemini 3.1 Pro和GPT-5.4出于安全原因拒绝执行部分任务,这很可能拉低了它们的得分。

在知识测试“人类最后考试”中,该模型得分为31%,落后于45分的Gemini 3.1 Pro和39.8分的GPT-5.4。在科学问题(GPQA-Diamond)方面,它同样以86.2分落后于Gemini 3.1 Pro的94.3分和GPT-5.4的92分。

基于代理的任务结果也参差不齐。在《自动售货台2》中,一名模型需要操作模拟自动售货机业务,GLM-5.1最终剩下的余额为5,634美元。Claude Opus 4.6的售价达到8,018美元——远高于此。在存储库生成(NL2Repo)方面,Claude Opus 4.6 也明显领先,49.8 版本对 GLM-5.1 的 42.7。

在人工智能分析指数中,该模型目前仅次于Anthropic的Claude 4.6 Sonnet。

智谱AI公开指出了剩余的挑战:模型需要更早识别死胡同,在数千次工具调用中保持一致性,并且在没有明确指标的情况下可靠地自我评估任务。公司表示,GLM-5.1是朝这个方向迈出的“第一步”。

该模型在 HUGGING Face 和 ModelScope 上以 MIT 许可发布,可以通过 API 平台 api.z.ai 和 BigModel.cn 访问。它与 Claude Code 和 OpenClaw 等编码代理集成。本地部署方面,智谱AI支持推理框架 vLLM 和 SGLang,GitHub 仓库中有设置指南。Z.ai 聊天界面的访问预计将在未来几天内上线。

智谱AI正在迅速扩展其模型阵容

智谱AI最近推出了GLM-5V-Turbo,这是一种多模态编码模型,能够直接从图像和视频生成代码。在此之前,公司于二月发布了GLM-5,这是一款拥有7440亿参数的开放权重模型,旨在与领先的专有模型在编码任务上竞争。GLM-5.1很可能在两者基础上发展,并增加了志浦AI希望将其区别于中国竞争对手的远远未来能力。竞争依然激烈:除了智谱AI,Moonshot AI的Kimi K2.5和阿里巴巴的Qwen3.5也在积极进军自主编码代理市场。

智谱AI并不是唯一押注长期AI代理的公司。2026年初,Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析,超过三百万行的Rust代码几乎无法维护,排名在所有评估软件系统中排名倒数5%。

文章来源:https://the-decoder.com/zhipu-ais-glm-5-1-can-rethink-its-own-coding-strategy-across-hundreds-of-iterations/
小讯
上一篇 2026-04-10 18:56
下一篇 2026-04-10 18:54

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/255285.html