一种基于CLIP的深度联合语义对齐的无监督图文检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于CLIP的深度联合语义对齐的无监督图文检索方法
申请号:CN202411015051
申请日期:2024-07-26
公开号:CN120407909A
公开日期:2025-08-01
类型:发明专利
摘要
本发明公开了一种基于CLIP的深度联合语义对齐的无监督图文检索方法,涉及图文检索方法技术领域,包括以下步骤:S1、CJSAH从预先训练好的CLIP骨干网络中提取图像和文本的特征;S2、分别在批次内计算图像和文本模态内的特征相似度矩阵;S3、将特征相似度矩阵增强融合为联合模态相似度矩阵,用于监督哈希码的学习;S4、特征被拼接后通过Transf ormer编码器进行语义交互,随后通过拆解经过模态融合的特征来计算对比损失;在所述S4中计算对比损失时,CJSAH还引入了一个动量对比学习模块,其中包括动量编码器和动态队列,以更大范围地挖掘负样本信息;本发明在三个广泛使用的数据集上进行的实验表明,我们提出的CJSAH在总检索准确率方面取得了令人满意的结果。
技术关键词
图文检索方法 文本 矩阵 编码器参数 多模态特征 sigmoid函数 队列 图像多模态 语义关联度 前馈神经网络 计算方法 动态 样本 噪声特征 注意力机制
系统为您推荐了相关专利信息
概率生成模型 多源时空数据 后验概率分布 图谱 输油管道监测系统
监测分析方法 管片结构 指数 盾构隧道管片接缝 三维点云模型
账单 图像 分析方法 图片 电子设备
模态特征 检索算法 注意力机制 无监督 样本
数据生成方法 生成对抗网络模型 随机噪声 风格 决策