基于多模态信息增强与交互的外部知识视觉问答方法

申请号：CN202410801823

申请日期：2024-06-20

公开号：CN118690852B

公开日期：2025-04-18

类型：发明专利

摘要

本发明涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括：提取原始图像中带有语义信息的视觉特征；处理原始问题得到问题文本嵌入，通过LXMERT模型提取各个特征；基于张量Tucker融合方法计算相似度矩阵，得到自回归提示；基于单模型文本问答模块得到单模态提示；将自回归提示与单模态提示与原始问题建立连接，再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示，提高问题文本信息丰富度；采用基于张量Tucker融合方法进行特征交互，捕获目标与问题之间相关性；将自回归提示与单模态提示与原始问题建立连接，利用递归的答案生成范式加强两个阶段的一致性，使得生成的最终答案准确率较高。

技术关键词

视觉问答方法多模态信息视觉特征标签文本融合方法答案多模态特征图像块矩阵语义分词实体检测器序列关系三元组