摘要
本发明提供一种跨模态的图文检索处理方法与系统,应用于信息检索领域,其中,上述方法包括:获取用户在图文检索过程中输入的查询文本;通过文本编码器对查询文本进行编码,生成查询文本特征向量;通过跨模态图文检索模型,基于查询文本特征向量与外部知识库中存储的多模态嵌入表示进行相似度匹配,返回大于匹配阈值的多模态嵌入表示对应的相关结果,其中,多模态嵌入表示用于表示图像与文本的联合特征;在相关结果同时包括图像与文本时,将相关结果与查询文本输入至预设的多模态大模型中,进行带有文本辅助的图像问答,得到多模态大模型输出的检索结果;通过本发明能够更好地捕捉图像和文本之间的语义关联,从而提高图文检索的准确性。