自注意力机制中键值压缩方法、大语言模型及电子设备

申请号：CN202510344978

申请日期：2025-03-21

公开号：CN120106150B

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了自注意力机制中键值压缩方法、大语言模型及电子设备，涉及计算机技术领域。所述压缩方法包括对键矩阵和值矩阵分别进行多次残差分解，得到每次分解后的键残差向量和值残差向量；对每次分解后的键残差向量和值残差向量分别进行聚类压缩，并对查询矩阵、压缩后的键残差向量和值残差向量进行注意力计算；对所有注意力计算结果进行累加。本申请解决了Linear Transformer无法使用标准的Softmax Transformer参数，且与标准Softmax Transformer差异较大的问题。

技术关键词

矩阵注意力机制键值大语言模型聚类模块索引前馈神经网络电子设备指令位置映射计算机程序产品处理器可读存储介质文本存储器编码数据