摘要
一种基于无参数交叉注意力的视觉语言多模态融合方法,属于计算机视觉领域。本发明实现方法为:采用固定预训练语言模型作为主干,使用视觉编码器提取图像特征,并通过无参数激活函数计算语言查询与视觉特征间的交叉注意力权重,替代传统跨注意力模块引入的多组可学习投影矩阵,显著降低模型参数规模。引入基于池化操作的多尺度视觉特征生成机制,为语言模型提供丰富的视觉语义提示信息。结合交叉注意力设计动态特征选择模块,对每个文本令牌所对应的视觉区域进行筛选,丢弃低相关性区域,仅保留对当前语言上下文更具贡献的视觉内容,实现模态间的信息精准匹配与高效融合,提升视觉语言模型在图文问答、图像生成与多模态指令理解等任务中的性能。