CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源 CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源 关键词: NPU,LLM,T-MAC,模型训练,mpGEMM T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。 来自主题: AI资讯 5186 点击 2024-08-13 17:42