基于层次化多模态精细调节的视觉问答优化方法与系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于层次化多模态精细调节的视觉问答优化方法与系统
申请号:CN202510472099
申请日期:2025-04-16
公开号:CN120011547B
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种基于层次化多模态精细调节的视觉问答优化方法与系统,通过创新的自适应跨模态桥接与多层组逐阶段低秩适配方法,显著提升了跨模态学习的精度和效果。所述方法通过在视觉特征中引入多层次语义感知的文本信息,使得视觉特征得到更精细的调整与优化,从而解决了视觉特征与文本语义匹配的不一致问题。通过多层组逐阶段低秩适配,有效避免了感知误差的累积,提供了一种逐层适配的机制,使得视觉特征和文本特征在多层次的学习过程中能够更加精确地对齐。本发明为跨模态任务中的视觉‑文本特征融合提供了新的思路和方法,能够更好地捕捉文本与视觉领域的高层次交互,从而提升VQA任务的性能。
技术关键词
文本编码器 适配器 多头注意力机制 融合特征 跨模态 视觉特征提取 桥接模块 特征提取模块 语义 投影模块 线性 多模态 层级 感知误差 参数 多层次 元素