一种用于长文本大语言模型的层次辅助稀疏注意方法

申请号：CN202510003045

申请日期：2025-01-02

公开号：CN119990363A

公开日期：2025-05-13

类型：发明专利

摘要

本发明提供一种用于长文本大语言模型的层次辅助稀疏注意方法，所述方法包括：步骤S1、在每一层大语言模型层中增加一个参数共享的偏移分支得到新的大语言模型；步骤S2、将上下文切分成多个片段输入到大语言模型层内得到局部特征输出，同时对每个片段进行池化，输入到同层的偏移分支中得到低分辨率表示；步骤S3、将上一层的偏移分支输出的低分辨率表示拼接到当前层的大语言模型层的局部特征，输出给下一层大语言模型层；步骤S4、对新的大语言模型进行微调，并在其最后一个大语言模型层后接入一个语言建模头，用以输出下游任务的处理结果。采用本发明方法可有效提高推理效率的同时确保模型性能不被降低，降低生成首个词元时可能面临显著的延迟。

技术关键词

大语言模型分支注意力机制文本多层感知机问答系统参数基础模块元素