摘要
本发明公开了一种基于视觉语义双向引导的零样本食品图像检测方法,属于图像数据处理及产生技术领域,其以基于Transformer的DETR为检测框架,并融合食品语义增强网络和跨模态双向引导模块。首先,将图像输入到图像骨干网络分支以提取视觉特征、将类别标签输入到食品语义增强网络分支以提取语义特征,然后,将得到的两种特征送入跨模态双向引导融合模块,该模块包括双向引导编码器、双向引导查询向量和双向引导解码器,通过编码和解码的过程对视觉和语义特征进行对齐融合,最后,在全连接层中完成零样本食品图像检测的回归和分类任务。本发明能够在检测过程中捕获细致的食品属性和视觉特征,实现视觉语义模态的有效互动,从而提升对未见食品类别的检测精度。