实现单卡4090跑通OpenClaw！英伟达&浙大等提出长上下文推理KV压缩新方法TriAttention

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

4月22日下午，核心作者林熙，趋境科技首席引擎架构师谢威宇，字节跳动异构计算工程师黄瀚韬等6位专家和研究人员将在2026中国生成式AI大会同期LLM推理系统技术研讨会带来分享和Panel讨论。其中，主讲人林熙将以《长上下文推理中压缩的新思路：TriAttention的方法设计与思考》为主题进行分享。

智猩猩AI整理

编辑：宁宁

大语言模型在数学推导、多轮智能体、长文档理解等长推理任务中，会生成数万 token 的链式上下文，KV 缓存随序列长度线性膨胀，形成严重的 GPU 内存瓶颈。现有主流 KV 缓存压缩方法均基于 RoPE 编码后空间，查询向量会随位置持续旋转，仅最新少量查询可用于重要性评估，观测窗口极小，易误删关键 token 导致推理链断裂，且扩大观测窗口无法提升性能，长推理稳定性与精度难以兼顾。

针对上述痛点，MIT韩松团队联合、浙江大学提出TriAttention方法，转向 RoPE 编码前空间，发现并利用 Q/K 向量围绕固定非零中心高度集中的内在特性，通过三角级数较准确地刻画/重建注意力的距离偏好，摆脱对短期观测窗口的依赖。该方法融合三角级数得分与范数得分，通过集中度自适应加权实现稳定的 KV 重要性评估。实验结果表明，在 Qwen3-8B 的实验中，TriAttention 在与 Full Attention 等精度设置下，实现了 2.5× 吞吐提升或 10.7× KV 内存缩减，精度显著超越 SnapKV、R-KV 等主流基线，附录进一步展示了在单张 RTX 4090（24GB）上部署 AWQ INT4 的 Qwen3-32B 运行 OpenClaw 多轮任务时，full attention 会 OOM，而 TriAttention 可以在预算内完成任务。

主要方法

TriAttention 的关键，不只是提出一种新的 KV 打分公式，而是先发现了一种新的结构性现象，再把它转化为可计算的 KV 重要性评估机制。

整体思路可以概括为三步：

（1）先在 Pre-RoPE 空间识别 Q/K 的集中现象；

（2）再利用这种集中性，把 attention 写成关于相对距离的三角级数；

（3）最后据此构造融合距离、方向与模长信息的 key 打分函数，并配合高效剪枝实现在线 KV 压缩。

研究团队观察到，在绝大多数注意力头中，Pre-RoPE 的 Q/K 向量并不是分散无序的，而是围绕固定的非零中心高度聚集。研究团队用平均合向量长度（Mean Resultant Length, MRL）来衡量这种集中性，越接近 1，说明方向越集中。实验结果表明，这种 Q/K 集中现象在 Qwen3-8B 的大多数注意力头中都很明显，而且在数学、代码、对话等不同领域数据以及不同模型架构中都较为稳定，说明它并非偶然噪声而是较普遍的模型内在结构。

基于这一点，研究团队重新审视了 RoPE attention 的表达。标准 RoPE 下，attention logit 可写成各频带上的三角级数。这样，一个 attention head 对近距离、远距离或特定距离 token 的偏好，就可以被写成由 Q/K 中心决定的距离偏好曲线，而不再只是经验上的观察。研究团队进一步验证：由离线校准得到的 Q/K 中心构造的三角级数，能够较好重建 attention 的距离偏好，在多个模型上都表现出较高相关性。

在实现上，TriAttention 为每个 key 设计了两部分分数。

第一部分是三角级数得分

它利用离线校准得到的 Q 中心和当前 key 的频带表示，评估该 key 是否处在未来 query 更偏好的距离区域，主要刻画距离偏好与方向结构。

第二部分是范数得分

用于补偿中心近似带来的误差。当某个频带的集中度高时，三角级数更可靠，范数项会被抑制；当集中度较低时，范数项则会增强，以弥补方向信息的不稳定。最终，两部分融合为统一的 KV 重要性评分函数：

进一步地，一个 key 的价值并不只取决于某一个未来位置，而取决于它对多个未来 query 的综合作用。因此，TriAttention 使用几何间隔的 future offsets 集合在多个相对距离上采样，并对分数取平均，以同时覆盖近距离和远距离需求；附录消融表明，明显优于线性采样。在线推理阶段，TriAttention 采用窗口式批量剪枝：每生成 128 个 token 才触发一次压缩，当 KV cache 超出预算时，对所有 key 统一评分并只保留 top-B。对于 GQA 场景中多个 query head 共享一个 KV head 的情况，研究团队先在各 query head 内部做 z-score 标准化，再以最大值聚合，保证不同 head 的分数可比。由此，整个方法链条可以概括为：离线统计 Q/K 中心、范数与集中度，在线计算多偏移评分，结合 GQA 归一化聚合，再周期性执行 KV 剪枝。

实验设置及结果分析

模型：Qwen3-8B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-7B、GPT-OSS-20B，覆盖不同架构与规模。
数据集：主文主要评估 AIME24、AIME25、MATH500 三个数学推理基准；附录进一步补充了 LongBench、RULER，以及一个基于 DFS 递归模拟的 Recursive State Query benchmark，用于测试记忆保持能力。
基线方法：主文主要对比 Full Attention、SnapKV、R-KV；H2O、LazyEviction、StreamingLLM 等方法的结果主要见附录。
评估指标：任务精度、推理吞吐量、KV cache 压缩效果，以及递归记忆实验中的 stack exact match（栈状态精确匹配）。

（二）主实验结果

在最核心的数学推理任务上，TriAttention 在不同模型和不同 KV 预算下都稳定优于已有压缩方法，并显著接近 Full Attention。以 Qwen3-8B 为例，在 AIME25 上，TriAttention 在 2048 KV budget 下达到 32.9%，明显高于 R-KV 的 17.5%；在 MATH500 上，仅保留 1024 个 token 时，TriAttention 取得 68.4%，已非常接近 Full Attention 的 69.6%。这说明它在高压缩率下仍能较好保留长推理所需的关键信息。

研究团队还通过递归状态查询任务测试了记忆保留能力。结果显示，在较低到中等记忆压力下，TriAttention 与 Full Attention 表现接近，而 R-KV 在递归深度增大后出现明显性能崩溃。这表明 TriAttention 并不只是“压得更狠”，而是在压缩 KV cache 的同时，更稳定地保留了长链推理中的中间状态。

在效率方面，TriAttention 给出了更优的精度—效率折中。以 Qwen3-8B 的 AIME25 为例，它在匹配 Full Attention 精度时，可实现 2.5× 吞吐提升或 10.7× KV 内存缩减；在 MATH500 上，吞吐提升最高可达 6.3×。与此同时，消融实验也表明，三角级数得分、自适应加权以及几何间隔 future offsets 都是方法有效性的关键组成部分。

（三）补充实验与工程验证

除主实验外，研究团队还在附录中补充了更广泛的验证，包括 LongBench、RULER 上的泛化测试，与 LazyEviction、H2O、StreamingLLM 等更多基线的对比，以及 RTX 4090 上运行 INT4 量化 Qwen3-32B 的 OpenClaw 单卡部署 demo。这些结果更多承担“泛化能力与工程可用性验证”的作用，说明 TriAttention 不仅在数学推理上有效，也具备进一步推广到一般长上下文任务和实际部署场景的潜力。

总结

TriAttention 的核心贡献在于利用 pre-RoPE 空间中稳定的 Q/K centers 来估计 key importance，从而避免 post-RoPE 观测式方法的不稳定性；实验表明，它在 reasoning 与一般长上下文任务上都优于现有基线，并在匹配 Full Attention 精度时实现了更好的效率。

实现单卡4090跑通OpenClaw！英伟达&浙大等提出长上下文推理KV压缩新方法TriAttention

相关推荐