摘要
本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。