基于层次化多模态精细调节的视觉问答优化方法与系统

申请号：CN202510472099

申请日期：2025-04-16

公开号：CN120011547B

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于层次化多模态精细调节的视觉问答优化方法与系统，通过创新的自适应跨模态桥接与多层组逐阶段低秩适配方法，显著提升了跨模态学习的精度和效果。所述方法通过在视觉特征中引入多层次语义感知的文本信息，使得视觉特征得到更精细的调整与优化，从而解决了视觉特征与文本语义匹配的不一致问题。通过多层组逐阶段低秩适配，有效避免了感知误差的累积，提供了一种逐层适配的机制，使得视觉特征和文本特征在多层次的学习过程中能够更加精确地对齐。本发明为跨模态任务中的视觉‑文本特征融合提供了新的思路和方法，能够更好地捕捉文本与视觉领域的高层次交互，从而提升VQA任务的性能。

技术关键词

文本编码器适配器多头注意力机制融合特征跨模态视觉特征提取桥接模块特征提取模块语义投影模块线性多模态层级感知误差参数多层次元素