摘要
本发明属于计算机视觉技术领域,涉及一种基于深度学习的细粒度图像检索方法,包括:获取待检索的图像数据;对图像数据进行预处理,将预处理后的图像输入到细粒度图像检索模型中,得到检索结果;其中细粒度图像检索模型包括ViT模型、Token筛选模块、中值增强空间通道注意力模块以及语义信息融合模块;ViT模型用于将图像划分为固定大小的patch序列;Token筛选模块模块用于对patch序列进行处理,得到高层语义特征表示;中值增强空间通道注意力模块用于对patch序列进行特征提取,得到中低层细节特征表示;语义信息融合模块用于对高层语义特征表示和中低层细节特征表示进行融合;本发明通过将ViT模型引入到图像检索任务中,并针对ViT模型中的token提出了独特的token增强选取方法,提升了模型对图像高层语义的表示能力。