摘要
本发明涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括:提取原始图像中带有语义信息的视觉特征;处理原始问题得到问题文本嵌入,通过LXMERT模型提取各个特征;基于张量Tucker融合方法计算相似度矩阵,得到自回归提示;基于单模型文本问答模块得到单模态提示;将自回归提示与单模态提示与原始问题建立连接,再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示,提高问题文本信息丰富度;采用基于张量Tucker融合方法进行特征交互,捕获目标与问题之间相关性;将自回归提示与单模态提示与原始问题建立连接,利用递归的答案生成范式加强两个阶段的一致性,使得生成的最终答案准确率较高。