2026年“全球大模型第一股”，重大发布

科技前沿 • 2026-05-01 08:45 • 阅读 23
大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 4月30日，“全球大模型第一股”智谱宣布，其GLM-5大模型的底层基础设施取得重大工程进展。公司设计并实现了名为“LayerSplit”的模型记忆缓存分层存储方案，使系统处理速度最高提升132%，实现了在相同硬件条件下的服务能力显著扩容。
可以理解为，LayerSplit让一个团队分工背一本厚书，而不是每人背整本。这大大减轻了每个人（每张显卡）的记忆负担，从而在相同硬件下，让模型处理长任务的速度提升，同时还更省“内存”。
对于供给高度紧张的存储芯片而言，这种旨在“减负”而非“堆料”的技术突破，会否扰动市场对存储需求的长期预期，有待观望。
此次发布的背景是，模型参数与数据规模的不断突破，也在不断逼近模型基础设施工程的极限。
智谱称，公司的推理基础设施迎来了前所未有的压力，每天承受着数亿次Coding Agent调用。过去几周，部分用户在使用GLM-5系列模型执行复杂Coding Agent任务时，遭遇了多种异常：乱码、复读，以及偶现的生僻字。
经过多次排查后，智谱团队发现，Coding Agent负载通常呈现出上下文长度较长、Prefix Cache命中率较高的特征。在这一场景下，Prefill阶段往往成为系统的主要性能瓶颈，因此Context Parallel（CP）成为线上Prefill节点的主要并行策略。
通俗来讲，代码任务就像一场超长的连续对话，模型在每次回应前都需要花大量时间“回忆”之前的全部内容（即准备阶段），这里成了最慢的环节。
原有的技术架构存在“数据重复存储”的问题，导致宝贵的显卡内存被低效占用，限制了整体性能。技术博客显示，现有的SGLang开源实现存在KV Cache冗余存储的问题，导致有限的KV Cache容量成为GPU计算资源利用率的限制因素。
为提升Prefill吞吐、降低Prefill侧KV Cache显存压力，智谱技术团队设计并实现了KV Cache分层存储方案LayerSplit。
新方案不再让每个“成员”（GPU）记住所有事情，而是让他们各自记住一部分，工作时通过快速“交头接耳”来协同完成任务。
在该方案中，每张GPU不再保存全部层的KV Cache，而是仅持有部分层的KV Cache，从而显著降低单卡的显存占用。在计算过程中，整个流程中仅引入了Indexer Cache广播的额外开销，其规模约为KV Cache的1/8，因此整体通信成本较低。
实验结果表明，系统吞吐量提升幅度在10%至132%之间，且随着上下文长度的增加，收益更加显著。整体来看，该优化显著提升了系统在Coding Agent场景下的处理能力
目前，智谱提出的KV cache修复方案已获SGLang开源社区采纳。公司推理优化还在进一步加速，大幅提升单位算力token吞吐效率，降低推理成本。
智谱展望称，当智能真正进入高并发、长上下文的Coding Agent场景后，推理基础设施的挑战已经不只是吞吐、延迟和可用性，维护它的输出质量变得至关重要。每一次对Scaling Law的追求，都必须有同等强度的系统工程作为支撑。智谱希望通过分析经验，帮助社区少走一些弯路，共同打磨出能够承载AGI未来的推理基础设施。
作者： 孙小程
2026年“全球大模型第一股”，重大发布

相关推荐