摘要
本申请公开了基于键值缓存压缩的问答推理方法、装置、设备及介质,涉及自然语言处理技术领域,包括:将当前问答任务中的提示词分割为词元序列并生成词元序列的初始键值缓存;基于目标大语言模型每注意力层的预设末端窗口大小将词元序列划分为各层对应的上下文词元和末端词元;根据上下文词元的键矩阵与末端词元的查询矩阵均值之间的重要性评分从上下文词元中筛选出每注意力层的关键词元;将初始键值缓存中除关键词元以外的词元的键值对剔除,以得到压缩后键值缓存;利用目标大语言模型生成与压缩后键值缓存对应的推理结果。降低大语言模型因键值缓存数据增长带来的高算力消耗并突破现有键值缓存压缩方法对完整注意力权重矩阵的依赖。