摘要
本发明公开了一种基于多模态检索增强机制的图像识别方法及装置,该方法包括:构建图文外部知识库以存储图像与文本对,利用图像查询样本通过k近邻检索从图文外部知识库中检索出与其语义相关的图像及文本信息;设计检索交叉融合模块,以通过融合检索到的图像嵌入向量与文本嵌入向量,有效建模图像与文本模态之间的关系;将该检索交叉融合模块与图像编码器和骨干网络模块并联构建多模态增强图像识别模型,在图像识别过程中同时考虑原始图像信息与图文外部知识库中的多模态上下文信息;最终获得鲁棒性强的图像识别模型。本发明能够显著提升在图像识别领域尤其是长尾分布识别、噪声标签学习任务中的识别准确率,具有良好的可扩展性和实际应用价值。