2026年“全球大模型第一股”,重大发布

“全球大模型第一股”,重大发布p 4 月 30 日 全球大模型第一股 智谱宣布 其 GLM 5 大模型的底层基础设施取得重大工程进展 公司设计并实现了名为 LayerSplit 的模型记忆缓存分层存储方案 使系统处理速度最高提升 132 实现了在相同硬件条件下的服务能力显著扩容 p p 可以理解为 LayerSplit 让一个团队分工背一本厚书 而不是每人背整本 p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

4月30日,“全球大模型第一股”智谱宣布,其GLM-5大模型的底层基础设施取得重大工程进展。公司设计并实现了名为“LayerSplit”的模型记忆缓存分层存储方案,使系统处理速度最高提升132%,实现了在相同硬件条件下的服务能力显著扩容。

可以理解为,LayerSplit让一个团队分工背一本厚书,而不是每人背整本。这大大减轻了每个人(每张显卡)的记忆负担,从而在相同硬件下,让模型处理长任务的速度提升,同时还更省“内存”。

对于供给高度紧张的存储芯片而言,这种旨在“减负”而非“堆料”的技术突破,会否扰动市场对存储需求的长期预期,有待观望。

此次发布的背景是,模型参数与数据规模的不断突破,也在不断逼近模型基础设施工程的极限。

智谱称,公司的推理基础设施迎来了前所未有的压力,每天承受着数亿次Coding Agent调用。过去几周,部分用户在使用GLM-5系列模型执行复杂Coding Agent任务时,遭遇了多种异常:乱码、复读,以及偶现的生僻字。

经过多次排查后,智谱团队发现,Coding Agent负载通常呈现出上下文长度较长、Prefix Cache命中率较高的特征。在这一场景下,Prefill阶段往往成为系统的主要性能瓶颈,因此Context Parallel(CP)成为线上Prefill节点的主要并行策略。

通俗来讲,代码任务就像一场超长的连续对话,模型在每次回应前都需要花大量时间“回忆”之前的全部内容(即准备阶段),这里成了最慢的环节。

原有的技术架构存在“数据重复存储”的问题,导致宝贵的显卡内存被低效占用,限制了整体性能。技术博客显示,现有的SGLang开源实现存在KV Cache冗余存储的问题,导致有限的KV Cache容量成为GPU计算资源利用率的限制因素。

为提升Prefill吞吐、降低Prefill侧KV Cache显存压力,智谱技术团队设计并实现了KV Cache分层存储方案LayerSplit。

新方案不再让每个“成员”(GPU)记住所有事情,而是让他们各自记住一部分,工作时通过快速“交头接耳”来协同完成任务。

在该方案中,每张GPU不再保存全部层的KV Cache,而是仅持有部分层的KV Cache,从而显著降低单卡的显存占用。在计算过程中,整个流程中仅引入了Indexer Cache广播的额外开销,其规模约为KV Cache的1/8,因此整体通信成本较低。

实验结果表明,系统吞吐量提升幅度在10%至132%之间,且随着上下文长度的增加,收益更加显著。整体来看,该优化显著提升了系统在Coding Agent场景下的处理能力

目前,智谱提出的KV cache修复方案已获SGLang开源社区采纳。公司推理优化还在进一步加速,大幅提升单位算力token吞吐效率,降低推理成本。

智谱展望称,当智能真正进入高并发、长上下文的Coding Agent场景后,推理基础设施的挑战已经不只是吞吐、延迟和可用性,维护它的输出质量变得至关重要。每一次对Scaling Law的追求,都必须有同等强度的系统工程作为支撑。智谱希望通过分析经验,帮助社区少走一些弯路,共同打磨出能够承载AGI未来的推理基础设施。

作者: 孙小程

小讯
上一篇 2026-05-01 08:46
下一篇 2026-05-01 08:44

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/283539.html