来源:沃垠AI
大家好,我是最近有点焦虑的冷逸。
焦虑的原因是,龙虾太火了,市面上鱼龙混杂,大家体验后觉得不过如此,又把它给卸载了,回到过去“能工智能”的老路。
以至于网上有个段子:有人花499请人上面安装OpenClaw,在用了几天后实在难用而且又不知道怎么删除,于是花了299找人上门卸载,结果卸载后电脑蓝屏,只得再花1000找人恢复数据。
普及Agent本是好事,但如因为滥竽充数导致人们对AI大失所望,反而会透支行业信用。
所以,又挺让人焦虑的。
我在很多地方都分享过一个观点:用好龙虾,关键在于模型和Skills。
如果没有好的底层模型,没有找到好的场景Skills,那还真不如“能工智能”,毕竟人可以无限Token,微信直接发布命令……
模型这块,现在已经有几个不错的模型了,比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。
但说实话,真不便宜,而且也有门槛,很多人用不了。
今天,智谱发布了「全球首款龙虾模型」GLM-5-Turbo,专门针对龙虾工作流进行优化。
在ZClawBench上取得了仅次于Claude Opus 4.6的全面表现,相比自己的GLM-5更是提升显著。
ZClawBench大家可能比较陌生,我给大家简单介绍一下。这是一个基于大量OpenClaw的真实用例,专门用来评估模型在真实工作流中执行能力的测评基准。
不同于传统的Benchmark,ZClawBench更接近Agent能力测评,不只是看模型会不会答问题,而是看模型能不能完成一件完整的事情。
龙虾任务讲求成功率,并不是模型的参数越大越好,而是要专门对Agent任务(比如工具调用、多步规划)进行优化,同时兼顾推理效率(也就是速度)。
所以,一般是用推理效率更高的中端或轻量级模型来跑龙虾,任务成功率会更高一些。GLM-5-Turbo,便是基于GLM-5基座调优出来的龙虾增强模型。
很多人玩龙虾,喜欢用它来做定时任务,但你发觉没有,经常定着定着它就没有时间观念了,可能隔几天就忘记了前面的设定。
这本质上是模型长文本instruction following能力的缺陷,导致它容易“失忆”,或者无法被唤醒。
针对这个问题,GLM-5-Turbo进行了专项优化,不仅能拆解复杂指令、指挥多智能体协作,还能在“时间维度”上保持对指令的长期记忆,确保长任务持续执行不断线。
所以,它很擅长处理定时和持续性任务,能够保持长任务不中断。
如果你最近有用过澳龙(AutoClaw),你就会发现上面多了一个叫Pony Alpha-2的模型。
在海外,有很多老哥猜测这到底是什么模型。比如@Numman Ali 就说,Pony Alpha-2看起来像Opus级别的模型。
今天,智谱官方揭晓:这其实就是GLM-5-Turbo。
我们也第一时间在澳龙里测了测,给大家看下我的一手体验。
我的任务是:
GPT plus 代充 只需 145
这个任务其实挺复杂的,澳龙要自己上网筛选信息→总结内容→生成表格→编写代码→自动发送到飞书。
这里面一共有5步,分别调用了搜索工具、文档工具、IM接口和模型Coding能力,很多模型走到第3步就崩了。
问题出在哪?会聊天≠会干活。
龙虾任务需要的是连续执行、精准调用工具、长时间不断线……这些,通用模型没有专门训过,根本就不会。
而搭载了GLM-5-Turbo的澳龙,它真的把Excel和HTML就直接给了我。
是的,就直接给了我,连过程它都没有输出几句废话……是不是像极了你们公司刚入职卖力干活求转正的新员工?
那来看下最终的结果呢?
卧槽,我还以为我打开的会是一个一看就是Python写的原始表格。没想到,它连配色、排版这些都考虑到了,我直接就可以用。
生成的可视化网页,这块我完全相信GLM模型的Coding能力。
接着,我又测了一个任务,这是我很早就想做的定时任务,让大模型来监控DeepSeek,看他们公司究竟什么时候发新模型。
一旦有新动态,第一时间通过飞书滴我。
任务需求是:
真的,一开始我都不抱希望,因为这里面涉及到各种反爬机制,很多模型大概率会失败。
之后,我就去吃饭了。2个小时后回来,没想到它真的开始监控了。
并成功通过飞书推送了监控报告。到发稿,我这个定时任务依然还在跑着。
它创建这个定时任务的思考过程超长超长,但你别管人家怎么想的,最终就是搞定了。
我只能说,真的🐂🍺,智谱🐂🍺。
这真的解决了我很早就想做但一直没能去做的需求问题,而今天我只口喷了几句提示,GLM-5-Turbo就接管了我的需求。
价格方面,这次智谱专门搞了个龙虾套餐,支持个人和Team订阅。
- Claw体验月卡,3500万Tokens,39元/张;
- Claw进阶月卡,1亿Tokens,99元/张。
说实话,对于高频养虾户来说,1亿Tokens可能不太够。
之前GLM模型就一直供不应求,我估计这个龙虾套餐也会很快售罄(还是算力紧张给影响的),需要的朋友,得早点下手了。
订阅地址:https://www.bigmodel.cn/claw-plan-team
除Claw套餐外,他们家的Coding Plan Max套餐已经支持GLM-5-Turbo。很幸运,我在春节前就买了他们的Max套餐,现在算是实现了“GLM模型自由”。
真的,还是那句话,底层模型太重要了。
没有优秀的底层模型,即使你的Agent框架设计得再好,soul、memory、Heartbeat、skills设计得再漂亮,也是白搭。
先有模型,后有Agent。
最近,我看到一个观点:「大模型,不是一个只安静呆在底下给你调API的基础设施,它本身就是智能,就是认知,就是那个会持续进化、持续吞并、持续往上吃的东西。」(by@Melly在硅谷)
深感认同!我们不应被Agent表面的繁荣转移了注意力,底层模型的进化,才是定义这个时代的根本力量。
框架和应用可能是时代的弄潮儿,但只有模型本身才是推动这个时代的潮水。
所以,我是真的很高兴,今天能够看到有这么厉害的国产龙虾模型面世。
最后,再分享一个行业细节:近期,OpenAI内部已经将核心KPI从传统的DAU(日活跃用户数)转向了TPD(每日Token消耗量)。
这什么意思呢?未来衡量AI的价值不是有多少人在用,而是AI替人类干了多少活。
不知道大家有没有注意,现在提Token,大家也都能明白,都能理解了,并不需要你给他科普 1 Token到底等于等于几个汉字、几个单词。
没人在乎Token的具体含义,但人人都在谈Token。
这就是,时代真的变了。
而我们,每个人都成了时代的一份子。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/240086.html