摘要
本发明提供一种模型推理方法、装置、设备及介质,其中方法包括:在模型推理所用的键值对缓存的长度达到长度阈值的情况下,基于所述模型推理产生的历史词元序列,对所述模型进行训练;对所述历史词元序列进行压缩,得到替换词元序列;基于所述替换词元序列,应用训练后的模型进行推理。本发明通过在模型推理所用的键值对缓存的长度达到长度阈值的情况下,基于所述模型推理产生的历史词元序列,对所述模型进行训练,从而提高了模型处理长序列任务的效率和准确性。同时,控制键值对缓存的最大长度以及压缩历史词元序列,能够降低计算和存储资源消耗。基于这些优化,模型能够在处理复杂和长序列任务时,保持高效的推理速度和输出质量。