一种基于CLIP的深度联合语义对齐的无监督图文检索方法
申请号:CN202411015051
申请日期:2024-07-26
公开号:CN120407909A
公开日期:2025-08-01
类型:发明专利
摘要
本发明公开了一种基于CLIP的深度联合语义对齐的无监督图文检索方法,涉及图文检索方法技术领域,包括以下步骤:S1、CJSAH从预先训练好的CLIP骨干网络中提取图像和文本的特征;S2、分别在批次内计算图像和文本模态内的特征相似度矩阵;S3、将特征相似度矩阵增强融合为联合模态相似度矩阵,用于监督哈希码的学习;S4、特征被拼接后通过Transf ormer编码器进行语义交互,随后通过拆解经过模态融合的特征来计算对比损失;在所述S4中计算对比损失时,CJSAH还引入了一个动量对比学习模块,其中包括动量编码器和动态队列,以更大范围地挖掘负样本信息;本发明在三个广泛使用的数据集上进行的实验表明,我们提出的CJSAH在总检索准确率方面取得了令人满意的结果。
技术关键词
图文检索方法
文本
矩阵
编码器参数
多模态特征
sigmoid函数
队列
图像多模态
语义关联度
前馈神经网络
计算方法
动态
样本
噪声特征
注意力机制