摘要
本申请实施例提供了一种针对大语言模型的结构化剪枝方法以及相关设备,属于神经网络轻量化技术领域。该方法包括:获取待剪枝的初始大语言模型多个注意力模块的第一权重矩阵、以及多个感知模块的第二权重矩阵;基于由第一权重矩阵相应的第一波动度量矩阵、以及由第二权重矩阵相应的第二波动度量矩阵确定全局剪枝阈值;基于全局剪枝阈值确定各注意力模块相应的键值掩码矩阵和查询掩码矩阵、以及各感知模块相应的感知掩码矩阵;利用键值掩码矩阵和查询掩码矩阵对相应的第一权重矩阵进行剪枝处理,并利用感知掩码矩阵对相应的第二权重矩阵进行剪枝处理,进而确定初始大语言模型剪枝后的大语言模型。本申请能够提高大语言模型的模型压缩准确度。