摘要
本发明涉及一种基于分割焦点偏移修正的组合图像检索方法及系统,包括:对给定三元组的各个元素包括参考图像、目标图像、修改文本进行理解并分别生成对应的嵌入特征;其中,参考图像与目标图像使用相同的图像编码器生成嵌入特征,修改文本使用对应的文本编码器进行嵌入特征的生成;对参考图像与修改文本进行组合理解,生成多模态查询组合特征;将多模态查询组合特征与目标图像特征进行跨模态语义对齐,评估多模态查询组合特征与目标图像特征之间的语义相似度,实现组合图像检索。在主导区域分割图像的指导下,本发明实现视觉和文本数据的自适应焦点映射,缓解所挖掘的非同质性现象。