基于解耦知识蒸馏的模型训练方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于解耦知识蒸馏的模型训练方法、装置、设备及介质
申请号:CN202411922274
申请日期:2024-12-25
公开号:CN119990254A
公开日期:2025-05-13
类型:发明专利
摘要
本申请提供了一种基于解耦知识蒸馏的模型训练方法、装置、设备及介质。本申请获取用于识别图像中目标对象的类别的教师模型和学生模型,将第一样本图像输入教师模型和学生模型,得到教师模型输出的第一特征和学生模型输出的第二特征;通过扩散模型去除第二特征中的噪声数据得到第三特征,扩散模型是基于噪声预测网络,根据第二样本图像以最小化学生模型输出的特征与教师模型输出的特征间的差异为目标训练得到的;根据第一特征和第三特征间的KL散度损失,通过反向传播算法对学生模型进行训练直至满足预设停止条件。本申请可实现教师模型输出的特征和学生模型输出的特征间的精确对齐,缩小教师模型和学生模型间的特征表征差距,提升模型训练效果。
技术关键词
模型训练方法 皮尔逊相关系数 学生 教师 噪声预测 噪声数据 传播算法 非暂态计算机可读存储介质 图像 样本 蒸馏 对象 模型训练装置 重构 处理器 输入模块 网络 存储器 电子设备