一种基于注意力头和自蒸馏的网络剪枝方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于注意力头和自蒸馏的网络剪枝方法
申请号:CN202510347973
申请日期:2025-03-24
公开号:CN119886259B
公开日期:2025-07-15
类型:发明专利
摘要
本说明书公开了一种基于注意力头和自蒸馏的网络剪枝方法,属于多模态大模型剪枝技术领域,包括基于令牌剪枝器、注意力头剪枝器以及基础模型,获得学生模型和教师模型;所述令牌剪枝器用于对输入基础模型的令牌进行重要性评估和剪枝;所述注意力头剪枝器用于对基础模型的注意力头进行重要性评估和剪枝;基于训练样本和自蒸馏的目标函数对学生模型和教师模型进行训练,获得优化后的学生模型;所述学生模型中的令牌剪枝器和注意力头剪枝器是激活的;所述教师模型中的令牌剪枝器和注意力头剪枝器是冻结的,解决目前的多模态剪枝方法存在的无法进行动态剪枝以及没有有效的考虑视觉模态和语言模态之间的交互关系的问题。
技术关键词
令牌 注意力 剪枝器 网络剪枝方法 教师 学生 神经网络阈值 蒸馏 策略 掩膜 基础 跨模态 随机梯度下降 动态剪枝 模型剪枝 参数 视觉 样本