基于键值缓存压缩的问答推理方法、装置、设备及介质

申请号：CN202510796232

申请日期：2025-06-13

公开号：CN120598057A

公开日期：2025-09-05

类型：发明专利

摘要

本申请公开了基于键值缓存压缩的问答推理方法、装置、设备及介质，涉及自然语言处理技术领域，包括：将当前问答任务中的提示词分割为词元序列并生成词元序列的初始键值缓存；基于目标大语言模型每注意力层的预设末端窗口大小将词元序列划分为各层对应的上下文词元和末端词元；根据上下文词元的键矩阵与末端词元的查询矩阵均值之间的重要性评分从上下文词元中筛选出每注意力层的关键词元；将初始键值缓存中除关键词元以外的词元的键值对剔除，以得到压缩后键值缓存；利用目标大语言模型生成与压缩后键值缓存对应的推理结果。降低大语言模型因键值缓存数据增长带来的高算力消耗并突破现有键值缓存压缩方法对完整注意力权重矩阵的依赖。

技术关键词

键值大语言模型推理方法序列矩阵关键词神经网络架构阈值机制注意力机制推理装置存储计算机程序自然语言模块可读存储介质处理器电子设备存储器