跨层压缩隐藏状态同时加速TTFT和压缩KV cache! 跨层压缩隐藏状态同时加速TTFT和压缩KV cache! 关键词: AI,模型训练,UNComp,人工智能 我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」? 来自主题: AI技术研报 8920 点击 2025-11-13 15:19