月之暗面发布Kimi Linear架构：长文本处理效率和性能双双突破

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 在人工智能领域，技术的不断进步为各类应用带来了颠覆性的改变。最近，月之暗面公司宣布推出一种革命性的注意力架构——Kimi Linear，这一创新技术有望重新定义下一代智能体大语言模型（Agent LLM）的基础架构。这项技术的发布引起了业内的广泛关注，团队还同步发布了技术报告《KIMILINEAR：一种高表达力且高效的注意力结构》，并开源了核心代码和预训练模型，相关验证已在内部完成了严格的测试。
传统的Transformer模型在处理长序列任务时面临两大核心挑战。首先，softmax注意力机制的计算复杂度与序列长度的平方成正比，这意味着当文本长度从千级扩展至百万级时，计算量将呈现出几何级数的增长，导致计算资源的巨大浪费。其次，在自回归生成过程中，必须缓存全部历史token的键值对（KV缓存），这导致显存消耗随着序列长度线性攀升，严重制约了实时交互能力。尽管线性注意力通过数学变换将复杂度降低至线性，但其表达能力长期以来却逊色于标准注意力机制，尤其在短序列场景下的性能差距显著。
为了解决这些问题，Kimi Linear采用了创新的3:1混合层级结构。每三层Kimi Delta Attention（KDA）线性注意力层后接入一层多头潜在注意力（MLA）全局层。这种设计使得模型在保持长序列处理效率的同时，通过周期性全局层有效捕捉远程依赖关系。实验数据显示，该架构在百万token上下文场景下，KV缓存占用较纯MLA模型降低了75%，解码吞吐量提升达6倍，且在数学推理、代码生成等复杂任务中表现全面超越传统架构。
KDA模块的核心突破在于两个创新。首先，引入了对角化门控矩阵以实现通道级遗忘控制，使每个特征维度能够独立调整信息保留速率。这种精细化调控机制赋予模型类似旋转位置编码（RoPE）的动态位置感知能力。其次，开发了一种硬件高效的块处理算法，通过约束对角加低秩（DPLR）结构将计算量减少了50%，并充分利用GPU张量核心实现并行优化。测试表明，KDA算子的效率较标准DPLR提升近一倍，在长序列合成任务中的准确率显著高于基础Gated DeltaNet。
技术报告特别强调了全局注意力层的“无位置编码”（NoPE）设计，所有位置信息的处理责任由KDA层承担。这种分工使得MLA层能够专注于内容关联，从而避免传统位置编码对训练长度的过拟合问题。在128k上下文基准测试中，Kimi Linear的平均得分较MLA基线提升了4.4%，在代码理解任务RepoQA中的优势更为明显。强化学习场景下的数学推理测试显示，其训练准确率增速较纯MLA模型快37%，测试集性能提升幅度达15%。
效率对比数据显示Kimi Linear的显著优势：在百万token解码场景下，单token生成时间从MLA的11.48ms压缩至1.84ms，支持批处理规模提升4倍；预填充阶段速度提升2.9倍，显存占用控制在纯MLA模型的25%水平。在经过1.4万亿token的预训练后，该模型在MMLU-Pro、Ceval等20余项基准测试中全面领先，其中数学推理任务AIME2025得分较基线提升12%。
目前，开发团队已开源KDA模块的CUDA核心实现、vLLM集成方案及480亿参数模型的训练检查点。技术文档指出，该架构通过混合设计释放了循环神经网络（RNN）的潜在能力，其通道级衰减门控机制可视为数据驱动的动态位置编码，为解决长文本外推问题提供了新的思路。实验证明，精心设计的线性注意力与全局注意力混合模式，首次在性能与效率的维度上同时超越了纯全注意力架构。
总之，Kimi Linear架构的推出不仅是月之暗面公司技术创新的体现，更是在长文本处理领域的一次重大突破。这一新型架构的出现，将为智能体大语言模型的未来发展提供新的动力，推动整个行业向更高效、更智能的方向迈进。
月之暗面发布Kimi Linear架构：长文本处理效率和性能双双突破

相关推荐