摘要
本发明公开了一种基于层次化多模态精细调节的视觉问答优化方法与系统,通过创新的自适应跨模态桥接与多层组逐阶段低秩适配方法,显著提升了跨模态学习的精度和效果。所述方法通过在视觉特征中引入多层次语义感知的文本信息,使得视觉特征得到更精细的调整与优化,从而解决了视觉特征与文本语义匹配的不一致问题。通过多层组逐阶段低秩适配,有效避免了感知误差的累积,提供了一种逐层适配的机制,使得视觉特征和文本特征在多层次的学习过程中能够更加精确地对齐。本发明为跨模态任务中的视觉‑文本特征融合提供了新的思路和方法,能够更好地捕捉文本与视觉领域的高层次交互,从而提升VQA任务的性能。