摘要
本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质,它们是相对应的方案,方案中:在大语言模型推理时,卸载大部分KV数据至CPU内存。对于KV数据从CPU内存至GPU显存的读取,采用top‑k注意力降低其读取量;并且,将已读取至GPU显存的KV数据进行缓存,使用近似缓存算法、按照KV头为基本单元进行管理;当推理过程中需要读取KV数据时,优先从GPU显存中进行读取,若无法使用,再进行数据预取;得益于以上改进,上述方案可有效降低KV数据占用的显存,并且最小化CPU至GPU的KV数据读取开销,使得推理性能达到理想水平。