实现单卡4090跑通OpenClaw!英伟达&浙大等提出长上下文推理KV压缩新方法TriAttention

实现单卡4090跑通OpenClaw!英伟达&浙大等提出长上下文推理KV压缩新方法TriAttention4 月 22 日下午 核心作者林熙 趋境科技首席引擎架构师谢威宇 字节跳动异构计算工程师黄瀚韬 等 6 位专家和研究人员将在 2026 中国生成式 AI 大会同期 LLM 推理系统技术研讨会带来分享和 Panel 讨论 其中 主讲人林熙将以 长上下文推理中 压缩的新思路 TriAttention 的方法设计与思考 为主题 进行分享 智猩猩 AI 整理 编辑 宁宁 大语言模型在数学推导 多轮智能体

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



4月22日下午,核心作者林熙,趋境科技首席引擎架构师谢威宇,字节跳动异构计算工程师黄瀚韬等6位专家和研究人员将在2026中国生成式AI大会同期LLM推理系统技术研讨会带来分享和Panel讨论。其中,主讲人林熙将以《长上下文推理中压缩的新思路:TriAttention的方法设计与思考》为主题进行分享。

智猩猩AI整理

编辑: 宁宁


大语言模型在数学推导、多轮智能体、长文档理解等长推理任务中,会生成数万 token 的链式上下文,KV 缓存随序列长度线性膨胀,形成严重的 GPU 内存瓶颈。现有主流 KV 缓存压缩方法均基于 RoPE 编码后空间,查询向量会随位置持续旋转,仅最新少量查询可用于重要性评估,观测窗口极小,易误删关键 token 导致推理链断裂,且扩大观测窗口无法提升性能,长推理稳定性与精度难以兼顾。


针对上述痛点,MIT韩松团队联合、浙江大学提出TriAttention方法,转向 RoPE 编码前空间,发现并利用 Q/K 向量围绕固定非零中心高度集中的内在特性,通过三角级数较准确地刻画/重建注意力的距离偏好,摆脱对短期观测窗口的依赖。该方法融合三角级数得分与范数得分,通过集中度自适应加权实现稳定的 KV 重要性评估。实验结果表明,在 Qwen3-8B 的 实验中,TriAttention 在与 Full Attention 等精度设置下,实现了 2.5× 吞吐提升或 10.7× KV 内存缩减,精度显著超越 SnapKV、R-KV 等主流基线,附录进一步展示了在单张 RTX 4090(24GB)上部署 AWQ INT4 的 Qwen3-32B 运行 OpenClaw 多轮任务时,full attention 会 OOM,而 TriAttention 可以在预算内完成任务。

图片


01

主要方法


TriAttention 的关键,不只是提出一种新的 KV 打分公式,而是先发现了一种新的结构性现象,再把它转化为可计算的 KV 重要性评估机制。


整体思路可以概括为三步:

(1)先在 Pre-RoPE 空间识别 Q/K 的集中现象;

(2)再利用这种集中性,把 attention 写成关于相对距离的三角级数;

(3)最后据此构造融合距离、方向与模长信息的 key 打分函数,并配合高效剪枝实现在线 KV 压缩。


研究团队观察到,在绝大多数注意力头中,Pre-RoPE 的 Q/K 向量并不是分散无序的,而是围绕固定的非零中心高度聚集。研究团队用平均合向量长度(Mean Resultant Length, MRL)  来衡量这种集中性, 越接近 1,说明方向越集中。实验结果表明,这种 Q/K 集中现象在 Qwen3-8B 的大多数注意力头中都很明显,而且在数学、代码、对话等不同领域数据以及不同模型架构中都较为稳定,说明它并非偶然噪声而是较普遍的模型内在结构。


图片


基于这一点,研究团队重新审视了 RoPE attention 的表达。标准 RoPE 下,attention logit 可写成各频带上   的三角级数。这样,一个 attention head 对近距离、远距离或特定距离 token 的偏好,就可以被写成由 Q/K 中心决定的距离偏好曲线,而不再只是经验上的观察。研究团队进一步验证:由离线校准得到的 Q/K 中心构造的三角级数,能够较好重建 attention 的距离偏好,在多个模型上都表现出较高相关性。


图片


在实现上,TriAttention 为每个 key 设计了两部分分数。


第一部分是三角级数得分


  


它利用离线校准得到的 Q 中心和当前 key 的频带表示,评估该 key 是否处在未来 query 更偏好的距离区域,主要刻画距离偏好与方向结构。


第二部分是范数得分


  


用于补偿中心近似带来的误差。当某个频带的集中度高时,三角级数更可靠,范数项会被抑制;当集中度较低时,范数项则会增强,以弥补方向信息的不稳定。最终,两部分融合为统一的 KV 重要性评分函数:


  


进一步地,一个 key 的价值并不只取决于某一个未来位置,而取决于它对多个未来 query 的综合作用。因此,TriAttention 使用几何间隔的 future offsets 集合    在多个相对距离上采样,并对分数取平均,以同时覆盖近距离和远距离需求;附录消融表明,明显优于线性采样。在线推理阶段,TriAttention 采用窗口式批量剪枝:每生成 128 个 token 才触发一次压缩,当 KV cache 超出预算时,对所有 key 统一评分并只保留 top-B。对于 GQA 场景中多个 query head 共享一个 KV head 的情况,研究团队先在各 query head 内部做 z-score 标准化,再以最大值聚合,保证不同 head 的分数可比。由此,整个方法链条可以概括为:离线统计 Q/K 中心、范数与集中度,在线计算多偏移评分,结合 GQA 归一化聚合,再周期性执行 KV 剪枝。


图片

02

实验设置及结果分析



模型:Qwen3-8B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-7B、GPT-OSS-20B,覆盖不同架构与规模。
数据集:主文主要评估 AIME24、AIME25、MATH500 三个数学推理基准;附录进一步补充了 LongBench、RULER,以及一个基于 DFS 递归模拟的 Recursive State Query benchmark,用于测试记忆保持能力。
基线方法:主文主要对比 Full Attention、SnapKV、R-KV;H2O、LazyEviction、StreamingLLM 等方法的结果主要见附录。
评估指标:任务精度、推理吞吐量、KV cache 压缩效果,以及递归记忆实验中的 stack exact match(栈状态精确匹配)。

(二)主实验结果


在最核心的数学推理任务上,TriAttention 在不同模型和不同 KV 预算下都稳定优于已有压缩方法,并显著接近 Full Attention。以 Qwen3-8B 为例,在 AIME25 上,TriAttention 在 2048 KV budget 下达到 32.9%,明显高于 R-KV 的 17.5%;在 MATH500 上,仅保留 1024 个 token 时,TriAttention 取得 68.4%,已非常接近 Full Attention 的 69.6%。这说明它在高压缩率下仍能较好保留长推理所需的关键信息。


研究团队还通过递归状态查询任务测试了记忆保留能力。结果显示,在较低到中等记忆压力下,TriAttention 与 Full Attention 表现接近,而 R-KV 在递归深度增大后出现明显性能崩溃。这表明 TriAttention 并不只是“压得更狠”,而是在压缩 KV cache 的同时,更稳定地保留了长链推理中的中间状态。


在效率方面,TriAttention 给出了更优的精度—效率折中。以 Qwen3-8B 的 AIME25 为例,它在匹配 Full Attention 精度时,可实现 2.5× 吞吐提升或 10.7× KV 内存缩减;在 MATH500 上,吞吐提升最高可达 6.3×。与此同时,消融实验也表明,三角级数得分、自适应加权以及几何间隔 future offsets 都是方法有效性的关键组成部分。


图片


(三)补充实验与工程验证


除主实验外,研究团队还在附录中补充了更广泛的验证,包括 LongBench、RULER 上的泛化测试,与 LazyEviction、H2O、StreamingLLM 等更多基线的对比,以及 RTX 4090 上运行 INT4 量化 Qwen3-32B 的 OpenClaw 单卡部署 demo。这些结果更多承担“泛化能力与工程可用性验证”的作用,说明 TriAttention 不仅在数学推理上有效,也具备进一步推广到一般长上下文任务和实际部署场景的潜力。


图片

03

总结


TriAttention 的核心贡献在于利用 pre-RoPE 空间中稳定的 Q/K centers 来估计 key importance,从而避免 post-RoPE 观测式方法的不稳定性;实验表明,它在 reasoning 与一般长上下文任务上都优于现有基线,并在匹配 Full Attention 精度时实现了更好的效率。

小讯
上一篇 2026-04-14 17:38
下一篇 2026-04-14 17:36

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/260604.html