2026年深入谈谈GLM-5-Turbo：先有模型，后有Agent

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
来源：沃垠AI
大家好，我是最近有点焦虑的冷逸。
焦虑的原因是，龙虾太火了，市面上鱼龙混杂，大家体验后觉得不过如此，又把它给卸载了，回到过去“能工智能”的老路。
以至于网上有个段子：有人花499请人上面安装OpenClaw，在用了几天后实在难用而且又不知道怎么删除，于是花了299找人上门卸载，结果卸载后电脑蓝屏，只得再花1000找人恢复数据。 
  
    
     
      
    
普及Agent本是好事，但如因为滥竽充数导致人们对AI大失所望，反而会透支行业信用。
所以，又挺让人焦虑的。
我在很多地方都分享过一个观点：用好龙虾，关键在于模型和Skills。
如果没有好的底层模型，没有找到好的场景Skills，那还真不如“能工智能”，毕竟人可以无限Token，微信直接发布命令…… 
  
    
     
      
    
模型这块，现在已经有几个不错的模型了，比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。
但说实话，真不便宜，而且也有门槛，很多人用不了。
今天，智谱发布了「全球首款龙虾模型」GLM-5-Turbo，专门针对龙虾工作流进行优化。
在ZClawBench上取得了仅次于Claude Opus 4.6的全面表现，相比自己的GLM-5更是提升显著。 
  
    
     
      
    
ZClawBench大家可能比较陌生，我给大家简单介绍一下。这是一个基于大量OpenClaw的真实用例，专门用来评估模型在真实工作流中执行能力的测评基准。
不同于传统的Benchmark，ZClawBench更接近Agent能力测评，不只是看模型会不会答问题，而是看模型能不能完成一件完整的事情。
龙虾任务讲求成功率，并不是模型的参数越大越好，而是要专门对Agent任务（比如工具调用、多步规划）进行优化，同时兼顾推理效率（也就是速度）。
所以，一般是用推理效率更高的中端或轻量级模型来跑龙虾，任务成功率会更高一些。GLM-5-Turbo，便是基于GLM-5基座调优出来的龙虾增强模型。
很多人玩龙虾，喜欢用它来做定时任务，但你发觉没有，经常定着定着它就没有时间观念了，可能隔几天就忘记了前面的设定。
这本质上是模型长文本instruction following能力的缺陷，导致它容易“失忆”，或者无法被唤醒。
针对这个问题，GLM-5-Turbo进行了专项优化，不仅能拆解复杂指令、指挥多智能体协作，还能在“时间维度”上保持对指令的长期记忆，确保长任务持续执行不断线。
所以，它很擅长处理定时和持续性任务，能够保持长任务不中断。
如果你最近有用过澳龙（AutoClaw），你就会发现上面多了一个叫Pony Alpha-2的模型。 
  
    
     
      
    
在海外，有很多老哥猜测这到底是什么模型。比如@Numman Ali 就说，Pony Alpha-2看起来像Opus级别的模型。 
  
    
     
      
    
今天，智谱官方揭晓：这其实就是GLM-5-Turbo。
我们也第一时间在澳龙里测了测，给大家看下我的一手体验。
我的任务是：
GPT plus 代充 只需 145
这个任务其实挺复杂的，澳龙要自己上网筛选信息→总结内容→生成表格→编写代码→自动发送到飞书。
这里面一共有5步，分别调用了搜索工具、文档工具、IM接口和模型Coding能力，很多模型走到第3步就崩了。
问题出在哪？会聊天≠会干活。
龙虾任务需要的是连续执行、精准调用工具、长时间不断线……这些，通用模型没有专门训过，根本就不会。
而搭载了GLM-5-Turbo的澳龙，它真的把Excel和HTML就直接给了我。 
  
    
     
      
    
是的，就直接给了我，连过程它都没有输出几句废话……是不是像极了你们公司刚入职卖力干活求转正的新员工？
那来看下最终的结果呢？ 
  
    
     
      
    
卧槽，我还以为我打开的会是一个一看就是Python写的原始表格。没想到，它连配色、排版这些都考虑到了，我直接就可以用。
生成的可视化网页，这块我完全相信GLM模型的Coding能力。 
  
    
     
      
    
接着，我又测了一个任务，这是我很早就想做的定时任务，让大模型来监控DeepSeek，看他们公司究竟什么时候发新模型。
一旦有新动态，第一时间通过飞书滴我。
任务需求是：
真的，一开始我都不抱希望，因为这里面涉及到各种反爬机制，很多模型大概率会失败。
之后，我就去吃饭了。2个小时后回来，没想到它真的开始监控了。 
  
    
     
      
    
并成功通过飞书推送了监控报告。到发稿，我这个定时任务依然还在跑着。 
  
    
     
      
    
它创建这个定时任务的思考过程超长超长，但你别管人家怎么想的，最终就是搞定了。 
  
    
     
      
    
我只能说，真的🐂🍺，智谱🐂🍺。
这真的解决了我很早就想做但一直没能去做的需求问题，而今天我只口喷了几句提示，GLM-5-Turbo就接管了我的需求。
价格方面，这次智谱专门搞了个龙虾套餐，支持个人和Team订阅。 
  
    
     
     Claw体验月卡，3500万Tokens，39元/张； 
     Claw进阶月卡，1亿Tokens，99元/张。 
    
说实话，对于高频养虾户来说，1亿Tokens可能不太够。
之前GLM模型就一直供不应求，我估计这个龙虾套餐也会很快售罄（还是算力紧张给影响的），需要的朋友，得早点下手了。 
  
    
     
      
    
订阅地址：https://www.bigmodel.cn/claw-plan-team
除Claw套餐外，他们家的Coding Plan Max套餐已经支持GLM-5-Turbo。很幸运，我在春节前就买了他们的Max套餐，现在算是实现了“GLM模型自由”。
真的，还是那句话，底层模型太重要了。
没有优秀的底层模型，即使你的Agent框架设计得再好，soul、memory、Heartbeat、skills设计得再漂亮，也是白搭。
先有模型，后有Agent。 
  
    
     
      
    
最近，我看到一个观点：「大模型，不是一个只安静呆在底下给你调API的基础设施，它本身就是智能，就是认知，就是那个会持续进化、持续吞并、持续往上吃的东西。」（by@Melly在硅谷）
深感认同！我们不应被Agent表面的繁荣转移了注意力，底层模型的进化，才是定义这个时代的根本力量。
框架和应用可能是时代的弄潮儿，但只有模型本身才是推动这个时代的潮水。
所以，我是真的很高兴，今天能够看到有这么厉害的国产龙虾模型面世。
最后，再分享一个行业细节：近期，OpenAI内部已经将核心KPI从传统的DAU（日活跃用户数）转向了TPD（每日Token消耗量）。
这什么意思呢？未来衡量AI的价值不是有多少人在用，而是AI替人类干了多少活。
不知道大家有没有注意，现在提Token，大家也都能明白，都能理解了，并不需要你给他科普 1 Token到底等于等于几个汉字、几个单词。
没人在乎Token的具体含义，但人人都在谈Token。
这就是，时代真的变了。
而我们，每个人都成了时代的一份子。
特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。
2026年深入谈谈GLM-5-Turbo：先有模型，后有Agent

相关推荐