摘要
本说明书公开了一种基于注意力头和自蒸馏的网络剪枝方法,属于多模态大模型剪枝技术领域,包括基于令牌剪枝器、注意力头剪枝器以及基础模型,获得学生模型和教师模型;所述令牌剪枝器用于对输入基础模型的令牌进行重要性评估和剪枝;所述注意力头剪枝器用于对基础模型的注意力头进行重要性评估和剪枝;基于训练样本和自蒸馏的目标函数对学生模型和教师模型进行训练,获得优化后的学生模型;所述学生模型中的令牌剪枝器和注意力头剪枝器是激活的;所述教师模型中的令牌剪枝器和注意力头剪枝器是冻结的,解决目前的多模态剪枝方法存在的无法进行动态剪枝以及没有有效的考虑视觉模态和语言模态之间的交互关系的问题。