2026年深入谈谈GLM-5-Turbo:先有模型,后有Agent

深入谈谈GLM-5-Turbo:先有模型,后有Agentp 来源 沃垠 AI p p cms style font L 大家好 我是最近有点焦虑的冷逸 p p cms style font L 焦虑的原因是 龙虾太火了 市面上鱼龙混杂 大家体验后觉得不过如此 又把它给卸载了 回到过去 能工智能 的老路 p lt

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



来源:沃垠AI

大家好,我是最近有点焦虑的冷逸。

焦虑的原因是,龙虾太火了,市面上鱼龙混杂,大家体验后觉得不过如此,又把它给卸载了,回到过去“能工智能”的老路。

以至于网上有个段子:有人花499请人上面安装OpenClaw,在用了几天后实在难用而且又不知道怎么删除,于是花了299找人上门卸载,结果卸载后电脑蓝屏,只得再花1000找人恢复数据。

图由Lovart生成

普及Agent本是好事,但如因为滥竽充数导致人们对AI大失所望,反而会透支行业信用。

所以,又挺让人焦虑的。

我在很多地方都分享过一个观点:用好龙虾,关键在于模型和Skills。

如果没有好的底层模型,没有找到好的场景Skills,那还真不如“能工智能”,毕竟人可以无限Token,微信直接发布命令……

模型这块,现在已经有几个不错的模型了,比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。

但说实话,真不便宜,而且也有门槛,很多人用不了。

今天,智谱发布了「全球首款龙虾模型」GLM-5-Turbo,专门针对龙虾工作流进行优化。

在ZClawBench上取得了仅次于Claude Opus 4.6的全面表现,相比自己的GLM-5更是提升显著。

ZClawBench大家可能比较陌生,我给大家简单介绍一下。这是一个基于大量OpenClaw的真实用例,专门用来评估模型在真实工作流中执行能力的测评基准。

不同于传统的Benchmark,ZClawBench更接近Agent能力测评,不只是看模型会不会答问题,而是看模型能不能完成一件完整的事情。

龙虾任务讲求成功率,并不是模型的参数越大越好,而是要专门对Agent任务(比如工具调用、多步规划)进行优化,同时兼顾推理效率(也就是速度)。

所以,一般是用推理效率更高的中端或轻量级模型来跑龙虾,任务成功率会更高一些。GLM-5-Turbo,便是基于GLM-5基座调优出来的龙虾增强模型

很多人玩龙虾,喜欢用它来做定时任务,但你发觉没有,经常定着定着它就没有时间观念了,可能隔几天就忘记了前面的设定。

这本质上是模型长文本instruction following能力的缺陷,导致它容易“失忆”,或者无法被唤醒。

针对这个问题,GLM-5-Turbo进行了专项优化,不仅能拆解复杂指令、指挥多智能体协作,还能在“时间维度”上保持对指令的长期记忆,确保长任务持续执行不断线。

所以,它很擅长处理定时和持续性任务,能够保持长任务不中断。

如果你最近有用过澳龙(AutoClaw),你就会发现上面多了一个叫Pony Alpha-2的模型。

在海外,有很多老哥猜测这到底是什么模型。比如@Numman Ali 就说,Pony Alpha-2看起来像Opus级别的模型。

今天,智谱官方揭晓:这其实就是GLM-5-Turbo

我们也第一时间在澳龙里测了测,给大家看下我的一手体验。

我的任务是:

GPT plus 代充 只需 145

这个任务其实挺复杂的,澳龙要自己上网筛选信息→总结内容→生成表格→编写代码→自动发送到飞书。

这里面一共有5步,分别调用了搜索工具、文档工具、IM接口和模型Coding能力,很多模型走到第3步就崩了。

问题出在哪?会聊天≠会干活。

龙虾任务需要的是连续执行、精准调用工具、长时间不断线……这些,通用模型没有专门训过,根本就不会。

而搭载了GLM-5-Turbo的澳龙,它真的把Excel和HTML就直接给了我。

是的,就直接给了我,连过程它都没有输出几句废话……是不是像极了你们公司刚入职卖力干活求转正的新员工?

那来看下最终的结果呢?

卧槽,我还以为我打开的会是一个一看就是Python写的原始表格。没想到,它连配色、排版这些都考虑到了,我直接就可以用。

生成的可视化网页,这块我完全相信GLM模型的Coding能力。

接着,我又测了一个任务,这是我很早就想做的定时任务,让大模型来监控DeepSeek,看他们公司究竟什么时候发新模型。

一旦有新动态,第一时间通过飞书滴我。

任务需求是:

真的,一开始我都不抱希望,因为这里面涉及到各种反爬机制,很多模型大概率会失败。

之后,我就去吃饭了。2个小时后回来,没想到它真的开始监控了。

并成功通过飞书推送了监控报告。到发稿,我这个定时任务依然还在跑着。

它创建这个定时任务的思考过程超长超长,但你别管人家怎么想的,最终就是搞定了。

我只能说,真的🐂🍺,智谱🐂🍺。

这真的解决了我很早就想做但一直没能去做的需求问题,而今天我只口喷了几句提示,GLM-5-Turbo就接管了我的需求。

价格方面,这次智谱专门搞了个龙虾套餐,支持个人和Team订阅。

  • Claw体验月卡,3500万Tokens,39元/张;
  • Claw进阶月卡,1亿Tokens,99元/张。

说实话,对于高频养虾户来说,1亿Tokens可能不太够。

之前GLM模型就一直供不应求,我估计这个龙虾套餐也会很快售罄(还是算力紧张给影响的),需要的朋友,得早点下手了。

订阅地址https://www.bigmodel.cn/claw-plan-team

除Claw套餐外,他们家的Coding Plan Max套餐已经支持GLM-5-Turbo。很幸运,我在春节前就买了他们的Max套餐,现在算是实现了“GLM模型自由”。

真的,还是那句话,底层模型太重要了

没有优秀的底层模型,即使你的Agent框架设计得再好,soul、memory、Heartbeat、skills设计得再漂亮,也是白搭。

先有模型,后有Agent。

最近,我看到一个观点:「大模型,不是一个只安静呆在底下给你调API的基础设施,它本身就是智能,就是认知,就是那个会持续进化、持续吞并、持续往上吃的东西。」(by@Melly在硅谷)

深感认同!我们不应被Agent表面的繁荣转移了注意力,底层模型的进化,才是定义这个时代的根本力量。

框架和应用可能是时代的弄潮儿,但只有模型本身才是推动这个时代的潮水。

所以,我是真的很高兴,今天能够看到有这么厉害的国产龙虾模型面世。

最后,再分享一个行业细节:近期,OpenAI内部已经将核心KPI从传统的DAU(日活跃用户数)转向了TPD(每日Token消耗量)。

这什么意思呢?未来衡量AI的价值不是有多少人在用,而是AI替人类干了多少活。

不知道大家有没有注意,现在提Token,大家也都能明白,都能理解了,并不需要你给他科普 1 Token到底等于等于几个汉字、几个单词。

没人在乎Token的具体含义,但人人都在谈Token。

这就是,时代真的变了。

而我们,每个人都成了时代的一份子。

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

小讯
上一篇 2026-03-21 13:53
下一篇 2026-03-21 13:51

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/240086.html