基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备
申请号:CN202510475698
申请日期:2025-04-16
公开号:CN120339798A
公开日期:2025-07-18
类型:发明专利
摘要
本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备,模型包括:第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征,第一视觉编码器的权重冻结;第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像,用于对图像的局部细节信息进行提取,并输出第二图像特征;特征融合层用于在通道维度拼接第一图像特征和第二图像特征,以形成融合视觉特征;线性层用于将融合视觉特征转换为大语言模型所需的输入维度;大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构,提高了多模态视觉理解模型的图像解析能力,优化了视觉特征与大语言模型的对齐方式。
技术关键词
融合视觉特征
推理方法
图像
全局视觉特征
特征金字塔网络
大语言模型
生成自然语言
多模态
深度卷积神经网络结构
支持自然语言交互
计算机程序指令
层级
多层注意力
线性
多尺度特征
数据
多层感知机
计算机程序产品