基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备

申请号：CN202510475698

申请日期：2025-04-16

公开号：CN120339798A

公开日期：2025-07-18

类型：发明专利

摘要

本申请提供一种基于双路视觉编码的多模态视觉理解模型、训练方法、推理方法及设备，模型包括：第一视觉编码器用于提取自然通用图像的全局视觉特征并输出第一图像特征，第一视觉编码器的权重冻结；第二视觉编码器的输入为经尺寸调整至预设的高分辨率的图像，用于对图像的局部细节信息进行提取，并输出第二图像特征；特征融合层用于在通道维度拼接第一图像特征和第二图像特征，以形成融合视觉特征；线性层用于将融合视觉特征转换为大语言模型所需的输入维度；大语言模型用于基于维度转换后的融合视觉特征和文本输入生成自然语言回答。本申请采用双路视觉编码结构，提高了多模态视觉理解模型的图像解析能力，优化了视觉特征与大语言模型的对齐方式。

技术关键词

融合视觉特征推理方法图像全局视觉特征特征金字塔网络大语言模型生成自然语言多模态深度卷积神经网络结构支持自然语言交互计算机程序指令层级多层注意力线性多尺度特征数据多层感知机计算机程序产品

系统为您推荐了相关专利信息

一种机器人混合现实优化方法及系统

功率分配参数机器人位姿图像信道状态信息混合整数非线性规划

一种激光加工的曲面工件三维套料方法

套料方法机器人末端位姿顶点工件点云深度相机

一种访客通行方法及通行系统

访客通行方法人脸面部特征人脸识别模块身份证信息识别身份证识别模块

一种冠状动脉血管图像分割方法及系统、存储介质和电子设备

血管图像分割方法血管分割特征提取网络中心线深度特征融合

一种远程家猪售卖系统及方法

售卖系统图像采集装置主控模块畸变参数鱼眼畸变