智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 
智谱AI已发布其新GLM-5.1模型，授权为MIT授权。据报道，该模型在处理编码任务时，可以经过数百次迭代不断完善自身方法。
智谱AI推出了GLM-5.1，一款专为长期运行的基于代理的编程任务设计的开权重模型。核心论点是：现有模型，包括志浦的前身GLM-5，在复杂问题上过快就没有新思路。他们采用熟悉的策略，早期取得进展，然后遇到瓶颈。给问题投入更多计算量也无济于事。
GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。
公司用三种情景来演示这一点，尽管这些场景均在内部进行。目前还没有独立评估。
GLM-5.1 在任务中途自动切换策略
在第一种情景中，GLM-5.1 需要优化向量数据库——一个搜索大量数据集并寻找相似条目的系统。目标是：在不丢失准确性的情况下，每秒尽可能多地回答搜索查询。根据Zhipu AI的数据，在一次50轮的标准测试运行中，Claude Opus 4.6保持了3,547次查询/秒的最高得分。
相反，智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用，公司表示，查询量达到了每秒21,500次——大约是之前**水平的六倍。
智谱表示，该模型在运行期间多次根本性地改变了策略。大约在第90次迭代时，它从对所有数据进行穷尽搜索转向了更高效的聚类方法。大约在第240次迭代时，它引入了两级流水线，先进行粗略的预排序，然后进行精确过滤。公司在整个播出过程中识别出六个此类结构性转变，每一次均由模型自身引发。
GPU优化显示了进步，但没有达到顶峰
在第二种情景中，模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称，GLM-5.1实现了基线实现的3.6倍加速，并在后续阶段持续取得进展。相比之下，GLM-5则更早就达到了瓶颈。

Claude Opus 4.6在本次测试中明显领先，速度提升了4.2倍，且末期仍有提升空间。GLM-5.1相比前代延长了生产时间，但并未缩短与最强竞争对手的差距。
一个基于单一提示的Linux桌面
第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境，作为一个网页应用——没有起始代码，没有中间指令。大多数型号提供一个基础外壳，带有任务栏和几个占位窗口，然后就完成任务，Zhipu AI表示。
GLM-5.1被放入一个循环，每轮后会回顾自己的输出，决定哪些还缺失或需要改进。经过八小时的开发，最终呈现了一个功能齐全的桌面环境，配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏，公司表示。
编程强，推理较弱
除了这三个演示，智谱AI还发布了一张基准表，描绘了更为细致的画面。在编码方面，GLM-5.1在多个测试中领先或匹敌竞争对手。在软件工程基准测试SWE-Bench Pro上，该测试得分为58.4%，是所有测试的免费模型中最高，略高于GPT-5.4（57.7%）和Claude Opus 4.6（57.3%）。在网络安全基准测试CyberGym上，它以68.7分获得最高分。不过，智谱AI也承认，Gemini 3.1 Pro和GPT-5.4出于安全原因拒绝执行部分任务，这很可能拉低了它们的得分。
在知识测试“人类最后考试”中，该模型得分为31%，落后于45分的Gemini 3.1 Pro和39.8分的GPT-5.4。在科学问题（GPQA-Diamond）方面，它同样以86.2分落后于Gemini 3.1 Pro的94.3分和GPT-5.4的92分。
基于代理的任务结果也参差不齐。在《自动售货台2》中，一名模型需要操作模拟自动售货机业务，GLM-5.1最终剩下的余额为5,634美元。Claude Opus 4.6的售价达到8,018美元——远高于此。在存储库生成（NL2Repo）方面，Claude Opus 4.6 也明显领先，49.8 版本对 GLM-5.1 的 42.7。
在人工智能分析指数中，该模型目前仅次于Anthropic的Claude 4.6 Sonnet。
智谱AI公开指出了剩余的挑战：模型需要更早识别死胡同，在数千次工具调用中保持一致性，并且在没有明确指标的情况下可靠地自我评估任务。公司表示，GLM-5.1是朝这个方向迈出的“第一步”。
该模型在 HUGGING Face 和 ModelScope 上以 MIT 许可发布，可以通过 API 平台 api.z.ai 和 BigModel.cn 访问。它与 Claude Code 和 OpenClaw 等编码代理集成。本地部署方面，智谱AI支持推理框架 vLLM 和 SGLang，GitHub 仓库中有设置指南。Z.ai 聊天界面的访问预计将在未来几天内上线。
智谱AI正在迅速扩展其模型阵容
智谱AI最近推出了GLM-5V-Turbo，这是一种多模态编码模型，能够直接从图像和视频生成代码。在此之前，公司于二月发布了GLM-5，这是一款拥有7440亿参数的开放权重模型，旨在与领先的专有模型在编码任务上竞争。GLM-5.1很可能在两者基础上发展，并增加了志浦AI希望将其区别于中国竞争对手的远远未来能力。竞争依然激烈：除了智谱AI，Moonshot AI的Kimi K2.5和阿里巴巴的Qwen3.5也在积极进军自主编码代理市场。
智谱AI并不是唯一押注长期AI代理的公司。2026年初，Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析，超过三百万行的Rust代码几乎无法维护，排名在所有评估软件系统中排名倒数5%。 
  
    
    
      文章来源：https://the-decoder.com/zhipu-ais-glm-5-1-can-rethink-its-own-coding-strategy-across-hundreds-of-iterations/
智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略

相关推荐