基于键值缓存压缩的问答推理方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于键值缓存压缩的问答推理方法、装置、设备及介质
申请号:CN202510796232
申请日期:2025-06-13
公开号:CN120598057A
公开日期:2025-09-05
类型:发明专利
摘要
本申请公开了基于键值缓存压缩的问答推理方法、装置、设备及介质,涉及自然语言处理技术领域,包括:将当前问答任务中的提示词分割为词元序列并生成词元序列的初始键值缓存;基于目标大语言模型每注意力层的预设末端窗口大小将词元序列划分为各层对应的上下文词元和末端词元;根据上下文词元的键矩阵与末端词元的查询矩阵均值之间的重要性评分从上下文词元中筛选出每注意力层的关键词元;将初始键值缓存中除关键词元以外的词元的键值对剔除,以得到压缩后键值缓存;利用目标大语言模型生成与压缩后键值缓存对应的推理结果。降低大语言模型因键值缓存数据增长带来的高算力消耗并突破现有键值缓存压缩方法对完整注意力权重矩阵的依赖。
技术关键词
键值 大语言模型 推理方法 序列 矩阵 关键词 神经网络架构 阈值机制 注意力机制 推理装置 存储计算机程序 自然语言 模块 可读存储介质 处理器 电子设备 存储器