一种基于无参数交叉注意力的视觉语言多模态融合方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于无参数交叉注意力的视觉语言多模态融合方法
申请号:CN202510704740
申请日期:2025-05-29
公开号:CN120654176A
公开日期:2025-09-16
类型:发明专利
摘要
一种基于无参数交叉注意力的视觉语言多模态融合方法,属于计算机视觉领域。本发明实现方法为:采用固定预训练语言模型作为主干,使用视觉编码器提取图像特征,并通过无参数激活函数计算语言查询与视觉特征间的交叉注意力权重,替代传统跨注意力模块引入的多组可学习投影矩阵,显著降低模型参数规模。引入基于池化操作的多尺度视觉特征生成机制,为语言模型提供丰富的视觉语义提示信息。结合交叉注意力设计动态特征选择模块,对每个文本令牌所对应的视觉区域进行筛选,丢弃低相关性区域,仅保留对当前语言上下文更具贡献的视觉内容,实现模态间的信息精准匹配与高效融合,提升视觉语言模型在图文问答、图像生成与多模态指令理解等任务中的性能。
技术关键词
多模态融合方法 视觉特征 矩阵低秩分解 文本 参数 融合特征 标记 动态特征选择 语义 预训练语言模型 交叉注意力机制 图像块特征 表达式 图像编码器 多尺度 生成机制