一种开放词汇目标检测模型的蒸馏学习方法、系统、设备及介质
申请号:CN202411598760
申请日期:2024-11-11
公开号:CN119539027B
公开日期:2025-10-17
类型:发明专利
摘要
本申请适用于视觉语言模型技术领域,提供了一种开放词汇目标检测模型的蒸馏学习方法,包括:基于预训练的候选框提取模型,获取待检测图片的伪标签,将待检测图片按照伪标签的区域进行裁剪,获得伪标签区域图像,伪标签为与已知类的标注框不重合的候选框;基于CLIP视觉编码器,获取伪标签区域图像的视觉特征;基于CLIP文本编码器,采用文本类别标签生成方法,获取伪标签区域图像的文本特征;基于视觉特征和文本特征,采用双对称蒸馏方法,对目标检测模型进行知识蒸馏学习,使目标检测模型学习到CLIP视觉编码器的视觉特征以及CLIP文本编码器的文本特征,本发明的目标检测模型能够对视觉特征和文本特征进行知识蒸馏学习,提高了目标检测模型的泛化能力。
技术关键词
视觉特征
文本编码器
蒸馏学习方法
标签生成方法
蒸馏方法
物体
图像
图片
教师
关系
语言模型技术
学生
可读存储介质
裁剪模块
学习系统
处理器