把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 关键词: AI,CPU,MagicPIG,人工智能 CPU+GPU,模型KV缓存压力被缓解了。 来自CMU、华盛顿大学、Meta AI的研究人员提出MagicPIG,通过在CPU上使用LSH(局部敏感哈希)采样技术,有效克服了GPU内存容量限制的问题。 来自主题: AI技术研报 7051 点击 2024-12-28 11:38