阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

9284点击 2026-06-08 15:08

“Full Attention 正在被遗忘”

随着 Agent 的广泛应用带来的长序列需求，传统 GPT 架构的 Attention 部分，由于其 O (N^2) 的计算复杂度，正逐渐被视为性能瓶颈而遭到替换。而 Attention 机制的架构迭代，也正在以前所未有的速度推进。目前业界的主流方案大致可以分为两种：Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 为代表，本质上是通过改进后的 Linear Attention 来实现信息压缩，使得存储代价压缩到 O(1) ，计算代价压缩到 O(N)；而 Sparse Attention 则主要通过稀疏化来优化计算开销，实践中往往能够达到接近 90% 以上的稀疏度，这也是在 DeepSeek-V4 中被正式采用的技术路线。

然而，在 RTPurbo 中 [1]，前期工作已经充分指出，使用 Full Attention+Sliding Window Attention（SWA）就已经可以在精度无损的保证下，将原生 Transformer 的 85% 注意力头变成 SWA，实现 15% Full Attention + 85% SWA 的混合架构，实现 5X 的 KV 和 Attention 压缩。无独有偶，在近期的一些开源架构，如 MIMO、Gemma4、GPT-OSS 中，也使用了 SWA+Full Attention 这一设计，颇有一种 “大道至简” 的设计思路。

尽管替换了 85% 的 Full Attention 成 SWA，剩下的 15% Full Attention 在超长序列（1M）下仍然会成为性能瓶颈。今天，为了彻底解决 Attention 的推理瓶颈，来自阿里的 RTP 团队推出了第二代 Attention 压缩技术：RTPurboV2。通过结合 Headwise 压缩，低秩投影压缩，以及聚类技术，RTPurboV2 可以在 V1 架构的基础上，进一步在 Full Attention 部分实现 16~32 倍计算压缩。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 1：RTPurboV2 性能

RTPurboV2：全方位极致 Full Attention 压缩

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 2：RTPurboV2 整体架构

Full Attention 模型在预训练过程中，已经自发地形成了高度稀疏的注意力结构。我们要做的不是 "强加" 稀疏性，而是 "释放" 它。这个判断建立在四个可量化的关键发现之上。

发现一：85% 的注意力头天然适配滑动窗口

研究人员发现，在 Full Attention 模型中，不同的 Attention Head 实际上承担着不同的职责。有些 Head 专注于捕捉局部信息（比如相邻 token 之间的关系），有些 Head 则负责捕捉长距离依赖（比如与自身相关信息的关联）。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 3：与大多数只关注局部信息的 Attention Head 不同，Retrieval Heads 会关注与当前 query token 语义相关的区域，即使这些区域在上下文中距离很远

更具体地说，通过可视化分析，研究者观察到，在 Qwen3 系列模型中：

约 15% 的 Head 表现出明显的 "召回头"（retrieval head）特征：它们的注意力分布非常稀疏，只关注少数几个关键 token，负责长距离信息召回
其余 85% 的 Head 则是 "流式头"（streaming head）：它们的注意力分布相对均匀，更多关注局部上下文

这种分工模式在不同输入、不同序列长度下高度稳定，是模型在预训练中自发习得的内在结构。直接推论：85% 的 Full Attention 计算可以安全地替换为 SWA（参考 RTPurbo），几乎不影响模型能力。真正需要解决的，只有剩余 15% 召回头的高效计算问题

发现二：长程检索由低维子空间主导

召回头的核心任务是在整个序列中做语义匹配 —— 看起来仍然是 O (N^2) 的问题。RTPurboV2 的核心技术升级之一是对于召回头和 RoPE 的细致理解。在深入分析 RoPE 位置编码的频率结构后，团队发现了召回头的 RoPE 分量存在显著的维度冗余。在 RoPE 下，Query-Key 的注意力得分可以分解为不同频率分量的叠加：

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

其中 △ = m - n 为位置偏移。不同频率分量的作用存在本质差异：

低频分量（θ_i 较小）：随位置偏移缓慢变化，承载 token 间的语义相关性信号
高频分量（θ_i 较大）：随位置偏移快速振荡，引入距离敏感性干扰

对于长距离检索而言，高频分量导致注意力得分随位置距离剧烈波动，削弱了语义信号的稳定传递。而从召回任务本身的性质出发：一个 token 的召回强度不应随相对位置的变化而快速波动。由此可以推断，在召回头上的高频分量一定是出于被压制状态，召回头本质上只会利用 RoPE 低频分量。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 4：RoPE 下高频分量随位置快速旋转，影响长程检索

因此，一个很自然的设计是训练一个低维 projector，我们通过低秩映射将原始特征维度从 D 压缩至 r=16 (其中 r ≪ D)，系统性地保留低频语义分量、过滤高频位置噪声。实验验证，仅 16 维即可达到 90%+ 的 token 召回率。

发现三：序列维度的冗余：基于高质量特征的自适应聚类

这是 RTPurboV2 的核心技术升级之二。团队意识到低秩投影带来的增益不止于计算量的直接降低 —— 它从根本上改善了 Key 向量在语义空间中的分布质量。高频噪声被过滤后，语义相似的 token 在低秩空间中天然聚拢，语义无关的 token 彼此远离。这为序列维度的进一步压缩创造了理想条件。

基于这一特性，我们在序列维度上引入自适应聚类，构建两级漏斗式计算流程：

1. 粗粒度匹配：将 N 个 token 聚类为 K 个语义簇（如 K=128），Query 先与 K 个簇中心做轻量级匹配，复杂度仅 O (N·K)

2. 细粒度计算：仅在命中的相关簇内执行完整 Attention 计算

两阶段串联，整体复杂度从 O (N^2) 跃迁至 O (N·K)：

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

两步压缩之间存在显著的协同增益：

特征维度压缩→ 降低单步计算开销，同时产出高质量聚类输入
序列维度压缩（聚类）→ 跳过大量语义无关 token，降低总计算步数
协同效应 → 特征压缩提纯后的向量让聚类中心更精准，使得在极端压缩比下依然保持高召回率

两者形成乘法效应：压缩比越激进，协同增益越显著。

发现四：动态 top-p 显著优于固定 top-k

传统的稀疏注意力方法通常采用固定 top-k 策略，即每个 query 只保留 attention score 最高的 k 个 token。但这种做法存在一个根本性问题：不同的 attention head、不同的序列长度、不同的 query，所需的上下文 token 数量差异巨大。

以同一模型同一层的三个召回头为例，在 64K 上下文下，覆盖 90% 注意力质量所需的 token 数：

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

表 1：不同 Attention Head 在不同序列长度下，top_p = 0.9 时召回的 Token 数量

三个数量级的差异，意味着不存在一个固定的 k 值能同时满足所有场景。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

两阶段微调训练 —— 百步完成稀疏化适配

四个发现汇合，RTPurboV2 的推理架构自然成型：

流式头（85%）→ SWA（窗口 8192）
召回头（15%）→ 低秩投影 + 聚类索引 + 动态 top-p

而让模型适配这套稀疏化架构，仅需训练约 600 步，约 1M label tokens。更具体的，RTPurboV2 的训练分为两个阶段：

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

阶段 2—— 端到端自蒸馏：启用稀疏模式，稀疏模型学习原始稠密模型的 next-token 预测分布。

在数十万亿 token 的预训练语境下，1M token 几乎可以忽略。这也从另一个角度验证了核心论点：Full Attention 的稀疏性是内生的，微调只是完成从隐式到显式的转化。

实验结果与性能评估

为了全面验证 RTPurboV2 的有效性，我们在 Qwen3-Coder-30B-A3B 和 Qwen3.5-35B-A3B 两款主流模型上，针对长文本核心基准进行了系统性评估。

1. Ruler 基准测试：长程检索的精度突破

在 Qwen3-Coder-30B-A3B 模型上，我们通过离线校准识别出约 15% 的关键 “召回头”。针对这些 Head，我们在 Prefill 阶段采用 Full Attention 并配合 K Cache 聚类，在 Decode 阶段则应用 RTPurboV2 实现稀疏化；其余流式头统一采用 SWA（局部窗口设为 8192）。

如图 3 所示，RTPurboV2 在 32K 和 64K 序列长度下均取得了最优平均分（分别为 89.69 和 85.61），显著优于除 Full Attention 外的所有基线方法，证明了其在长程信息召回上的卓越精度。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 5：Ruler 测评结果

2. LongBenchV2 基准测试：高召回比例下的无损压缩

针对 Qwen3.5-35B-A3B 模型，校准显示其超过 70% 的 Head 具有召回特性。为此，我们采取了全量稀疏化策略。实验结果（图 4）表明，RTPurboV2 在大幅降低计算开销的同时，完整保留了模型的基础能力，精度表现与 Full Attention 持平。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 6：LongBenchV2 测评结果

3. CoT 推理任务：复杂逻辑的稳定支撑

在链式思维（CoT）推理任务中，RTPurboV2 同样表现出色（图 5），实现了模型推理能力的近乎无损保留，进一步验证了该方案在复杂逻辑场景下的鲁棒性。

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

图 7：CoT 任务测评结果

更大的图景

当前注意力机制的研究重心，大量集中在设计全新的高效架构上。这条路径无疑有其价值。但 RTPurboV2 揭示了一个容易被忽视的事实：Full Attention 模型自身就蕴含着巨大的效率空间，而释放这种内生稀疏性的成本极低。

600 步训练，精度几乎无损，Prefill 最高 9.36 倍加速。这意味着，对于选择 SWA + Full Attention 混合架构的团队 —— 包括 MIMO、Gemma 4、GPT-OSS—— 不需要替换架构就能获得接近 SOTA 新方案的压缩效率。

“原生 Transformer，从未过时。Full Attention strikes back.”

团队介绍

RTP-LLM 是阿里巴巴智能引擎团队自研的高性能大模型推理引擎，支持了淘宝、天猫、高德等核心业务的大模型推理需求。智能引擎源自阿里巴巴搜索、推荐和广告技术，是阿里 AI 工程领域的先行者和深耕者。团队专注于 AI 工程系统的建设，主导建立了大数据 AI 工程体系 AI・OS，持续为阿里集团各业务提供高质量的 AI 工程服务。

RTP-LLM 项目已开源，欢迎交流共建： https://github.com/alibaba/rtp-llm

参考文献：

[1]: 仅需 15% 全量 Attention！「RTPurbo」阿里 Qwen3 长文本推理 5 倍压缩方案来了：https://mp.weixin.qq.com/s/wFAJ6oG1CsKBJiCBE45BsQ

[2]: Full Attention Strikes Back： https://huggingface.co/papers/2605.16928

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI新闻 , 模型训练 , RTPurboV2 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner