一种模型推理方法、装置、设备及介质

申请号：CN202411063960

申请日期：2024-08-02

公开号：CN118886508A

公开日期：2024-11-01

类型：发明专利

摘要

本发明提供一种模型推理方法、装置、设备及介质，其中方法包括：在模型推理所用的键值对缓存的长度达到长度阈值的情况下，基于所述模型推理产生的历史词元序列，对所述模型进行训练；对所述历史词元序列进行压缩，得到替换词元序列；基于所述替换词元序列，应用训练后的模型进行推理。本发明通过在模型推理所用的键值对缓存的长度达到长度阈值的情况下，基于所述模型推理产生的历史词元序列，对所述模型进行训练，从而提高了模型处理长序列任务的效率和准确性。同时，控制键值对缓存的最大长度以及压缩历史词元序列，能够降低计算和存储资源消耗。基于这些优化，模型能够在处理复杂和长序列任务时，保持高效的推理速度和输出质量。

技术关键词

推理方法序列键值样本推理装置处理器计算机程序产品压缩单元存储器注意力矩阵电子设备介质速度模块