阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意 阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意 关键词: AI新闻,模型训练,RTPurboV2,人工智能 “Full Attention 正在被遗忘” 来自主题: AI技术研报 7963 点击 2026-06-08 15:08
仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了 仅需15%全量Attention!「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了 关键词: AI,模型训练,RTPurbo,Qwen3 为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵? 来自主题: AI技术研报 8272 点击 2025-12-24 10:07