追寻历史的足迹:92.5分Agent新王登基:多智能体协作不是科幻,而是明天的办公常态?刚刚,智谱发布了新一代旗舰模型GLM

追寻历史的足迹:92.5分Agent新王登基:多智能体协作不是科幻,而是明天的办公常态?刚刚,智谱发布了新一代旗舰模型GLM92 5 分 Agent 新王登基 多智能体协作不是科幻 而是明天的办公常态 刚刚 智谱发布了新一代旗舰模型 GLM 5 在编程和 agent 能力方面 GLM 5 取得了 SOTA 表现 在 SWE bench 编码测试之中 它用 68 9 的成绩 把 Claude3 5Sonnet 的 49 0 给超过 这就意味着 AI 写代码从这以后就进入自己弄时代 详细数据表现请看图片 SWE bench

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



92.5分Agent新王登基:多智能体协作不是科幻,而是明天的办公常态?

刚刚,智谱发布了新一代旗舰模型GLM-5

在编程和agent能力方面,GLM-5取得了SOTA表现,在SWE-bench编码测试之中,它用68.9%的成绩,把Claude3.5Sonnet的49.0%给超过,这就意味着, AI写代码从这以后就进入自己弄时代。(详细数据表现请看图片)

SWE-bench, 测试的是模型在真实GitHub仓库里自己解决软件问题的能力,GLM-5得到了68.9%,而Claude3.5Sonnet是49.0%,GPT-4o仅仅是45.0。

这……竟然足足是前代GLM-4的33.0%,也就是说,在真实开发场景当中,模型能够自己完成从Bug定位、代码修复到提交PR的整个全流程。程序员们, 你们的白嫖劳动力可到了。

Agent能力,团队协作不再是幻想
Agent能力测试,测的是模型在多步骤复杂任务里的规划和执行能力, GLM-5拿到了92.5分,直接就把最高分抢过来了

GPT-MATH测试,考查的就是高等数学的解题能力, GLM-5以85.4%的成绩,和GPT-4o的76.6%以及Claude3.5Sonnet的71.1%相比,优势很明显,前代GLM-4只有72.4%的成绩。

这就意味着,在科研辅助、金融建模、工程计算等高精尖领域,这个模型可以提供接近专家级的推导帮助,数学系的同学们, 你们的24小时助教来。

在生态落地方面,API已经准备好了
随着模型的发布,智谱推出了Agent团队协作功能,能够支持多智能体一起处理复杂工作流,与此同时, 长上下文窗口扩展到200万Token,轻轻松松就能容纳一本百科全书。

定价这一方面,GLM-5API价格和GLM-4处于同一个水平, 输入是0.1元每千Token,输出是0.5元每千Token,从现在起就在智谱开放平台上线,开发者们, 就可以开始着手去做。



























































小讯
上一篇 2026-03-10 17:35
下一篇 2026-03-10 17:37

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211511.html