一种基于多模态特征融合的视觉问答方法及其模型

申请号：CN202411900860

申请日期：2024-12-23

公开号：CN119832535A

公开日期：2025-04-15

类型：发明专利

摘要

本发明提出一种多模态特征融合的视觉问答方法，通过生成不同分辨率的图像，多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征，从而提升图像理解的精度并通过多模态特征引导融合策略，将图像和文本特征高效结合，利用自注意力和交叉机制在特征层次深度交互，生成具有语义与视觉信息融合的特征表示，利用多模态特征融合后之后的数据特征，通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。

技术关键词

多模态特征融合视觉问答方法文本特征向量图像特征向量注意力多尺度信息融合策略高分辨率图片网络模型结构 BERT模型前馈神经网络答案双线性插值中间层