大语言模型推理优化方法、系统、设备及存储介质

申请号：CN202511511942

申请日期：2025-10-22

公开号：CN120996208A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质，它们是相对应的方案，方案中：在大语言模型推理时，卸载大部分KV数据至CPU内存。对于KV数据从CPU内存至GPU显存的读取，采用top‑k注意力降低其读取量；并且，将已读取至GPU显存的KV数据进行缓存，使用近似缓存算法、按照KV头为基本单元进行管理；当推理过程中需要读取KV数据时，优先从GPU显存中进行读取，若无法使用，再进行数据预取；得益于以上改进，上述方案可有效降低KV数据占用的显存，并且最小化CPU至GPU的KV数据读取开销，使得推理性能达到理想水平。

技术关键词

大语言模型数据传输同步方法缓存算法内存注意力图形处理器计算机扩展总线中央处理器寻址技术拷贝阶段解码单元动态成绩变量离线信号