一种基于多模态特征融合的视觉问答方法及其模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态特征融合的视觉问答方法及其模型
申请号:CN202411900860
申请日期:2024-12-23
公开号:CN119832535A
公开日期:2025-04-15
类型:发明专利
摘要
本发明提出一种多模态特征融合的视觉问答方法,通过生成不同分辨率的图像,多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征,从而提升图像理解的精度并通过多模态特征引导融合策略,将图像和文本特征高效结合,利用自注意力和交叉机制在特征层次深度交互,生成具有语义与视觉信息融合的特征表示,利用多模态特征融合后之后的数据特征,通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。
技术关键词
多模态特征融合 视觉问答方法 文本特征向量 图像特征向量 注意力 多尺度信息 融合策略 高分辨率图片 网络模型结构 BERT模型 前馈神经网络 答案 双线性插值 中间层