视觉特征的提取方法、装置、设备、存储介质及程序产品
申请号:CN202510779887
申请日期:2025-06-11
公开号:CN120635482A
公开日期:2025-09-12
类型:发明专利
摘要
本申请公开了一种视觉特征的提取方法、装置、设备、存储介质及程序产品,涉及多模态大模型技术领域,该方法包括:获取目标媒体数据;利用多模态处理模型中的视觉编码器对目标媒体数据进行视觉编码,得到目标视觉特征;其中,视觉编码器被配置为视觉特征层、连接层和多模态特征层,视觉特征层、连接层和多模态特征层是基于预设顺序进行渐进式训练得到的。通过实施本公开技术方案,使得视觉编码器能够提取的视觉特征能够逐步对齐多模态处理模型的特征空间,提升了多模态处理模型的视觉理解能力。
技术关键词
多模态特征
样本
文本识别
数据
视觉特征提取
识别特征
图文
图像
视频
计算机
媒体
执行多任务
参数
可读存储介质
图片
特征提取模块
指令