基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备
申请号:CN202510475698
申请日期:2025-04-16
公开号:CN120339798A
公开日期:2025-07-18
类型:发明专利
摘要
本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备,模型包括:第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征,第一视觉编码器的权重冻结;第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像,用于对图像的局部细节信息进行提取,并输出第二图像特征;特征融合层用于在通道维度拼接第一图像特征和第二图像特征,以形成融合视觉特征;线性层用于将融合视觉特征转换为大语言模型所需的输入维度;大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构,提高了多模态视觉理解模型的图像解析能力,优化了视觉特征与大语言模型的对齐方式。
技术关键词
融合视觉特征 推理方法 图像 全局视觉特征 特征金字塔网络 大语言模型 生成自然语言 多模态 深度卷积神经网络结构 支持自然语言交互 计算机程序指令 层级 多层注意力 线性 多尺度特征 数据 多层感知机 计算机程序产品
系统为您推荐了相关专利信息
功率分配参数 机器人位姿 图像 信道状态信息 混合整数非线性规划
套料方法 机器人末端位姿 顶点 工件点云 深度相机
访客通行方法 人脸面部特征 人脸识别模块 身份证信息识别 身份证识别模块
血管图像分割方法 血管分割 特征提取网络 中心线 深度特征融合
售卖系统 图像采集装置 主控模块 畸变参数 鱼眼畸变