AI资讯新闻榜单内容搜索-推测解码

首个三模式大语言模型：4倍token吞吐量，长文本秒级时代要来了？

英伟达提出了全球首个三模式的大语言模型系列，只需简单更改注意力模式 / 掩码，即可在自回归、扩散和自推测解码之间切换。一个模型，三种解码模式，没有额外的草稿模型，没有架构变更。最快的模式 token 吞吐量能提升 4 倍。

来自主题: AI技术研报

9420 点击 2026-05-22 15:33

不改模型、不降质量，谷歌让Gemma 4快了3倍：本地跑大模型彻底变天

谷歌刚刚给Gemma 4家族更新了一项关键能力：Multi-Token Prediction（MTP）推测解码架构，推理速度最高提升3倍，输出质量不变。

来自主题: AI资讯

9492 点击 2026-05-06 14:56

比全球最强推理引擎还快2倍，斯坦福、普林斯顿破解大模型「串行魔咒」

在大语言模型推理领域，虽然「推测解码」（Speculative Decoding，SD）已成为加速生成的标准配置，但它依然存在一个致命弱点： drafting（草拟）和 verification（验证）之间必须串行进行。

来自主题: AI技术研报

8033 点击 2026-04-01 16:20

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

目前，最先进的对齐方法是使用知识蒸馏（Knowledge Distillation, KD）在所有 token 上最小化 KL 散度。然而，最小化全局 KL 散度并不意味着 token 的接受率最大化。由于小模型容量受限，草稿模型往往难以完整吸收目标模型的知识，导致直接使用蒸馏方法的性能提升受限。在极限场景下，草稿模型和目标模型的巨大尺寸差异甚至可能导致训练不收敛。

来自主题: AI技术研报

9073 点击 2025-11-07 14:57