一种基于置信度校正与一致性学习的噪声跨模态检索方法
申请号:CN202510496560
申请日期:2025-04-21
公开号:CN120407711A
公开日期:2025-08-01
类型:发明专利
摘要
本发明公开了一种基于置信度校正与一致性学习的噪声跨模态检索方法,属于多媒体检索的跨模态检索技术领域。首先在预热阶段预热模型和模型,利用损失优化初始匹配关系。在正式训练阶段,采用协同教学范式训练双模型,通过双组分高斯混合模型对正样本对损失分布建模,根据阈值将其划分为干净子集、不确定子集和噪声子集。针对不同子集设计不同置信度校正策略,进一步结合预训练视觉模型提取的图像单模态特征、预训练语言模型提取的文本单模态特征计算跨模态相似度,对负样本对进行判别。最终联合正样本对损失和负样本对损失,形成噪声鲁棒性增强的跨模态对齐框架。本发明有效提升噪声场景下的检索准确性,在多媒体检索领域具有实用价值。
技术关键词
模态特征
样本
跨模态检索方法
预训练语言模型
损失函数优化
文本编码器
图像编码器
噪声图像
超参数
图像匹配
校正
高斯混合模型
定义
概率密度函数