针对大语言模型的结构化剪枝方法以及相关设备

申请号：CN202510309293

申请日期：2025-03-17

公开号：CN119849578B

公开日期：2025-06-10

类型：发明专利

摘要

本申请实施例提供了一种针对大语言模型的结构化剪枝方法以及相关设备，属于神经网络轻量化技术领域。该方法包括：获取待剪枝的初始大语言模型多个注意力模块的第一权重矩阵、以及多个感知模块的第二权重矩阵；基于由第一权重矩阵相应的第一波动度量矩阵、以及由第二权重矩阵相应的第二波动度量矩阵确定全局剪枝阈值；基于全局剪枝阈值确定各注意力模块相应的键值掩码矩阵和查询掩码矩阵、以及各感知模块相应的感知掩码矩阵；利用键值掩码矩阵和查询掩码矩阵对相应的第一权重矩阵进行剪枝处理，并利用感知掩码矩阵对相应的第二权重矩阵进行剪枝处理，进而确定初始大语言模型剪枝后的大语言模型。本申请能够提高大语言模型的模型压缩准确度。

技术关键词

掩码矩阵大语言模型剪枝方法注意力度量键值模块样本元素轻量化技术剪枝装置可读存储介质模型压缩电子设备处理器存储器计算机参数