摘要
本发明公开了一种语义外延与内涵双驱动的多模态图像文本检索方法,涉及数据检索技术领域,包括S1、获取原始图像与文本数据对的数据集;S2、构建外部场景知识库模块,将场景知识库中的语义的外延信息和内涵信息分别作为文本和图像的语义扩展与补充,进一步丰富图像和文本中的语义信息;S3、设计多模态语义表征模块,对扩展的语义外延和语义内涵进行特征表示,以此获得强化后的图像特征和文本特征补充,增强语义理解的深度和广度;S4、定义跨模态相似性计算框架,通过模态间相似性约束提升语义对齐精度,利用多模态对比学习损失函数约束优化模型参数;S5、将查询文本和扩展的语义外延信息进行整合并编码。