视觉语言模型参数对齐方法、装置、存储介质和电子设备
申请号:CN202410802819
申请日期:2024-06-20
公开号:CN118379749B
公开日期:2024-08-27
类型:发明专利
摘要
本公开涉及大语言模型领域,尤其涉及一种视觉语言模型参数对齐方法、装置、存储介质和电子设备,确定大语言模型和参数扩大处理后的视觉编码器以及训练集。对视觉编码器和大语言模型并联得到第一训练结构,根据训练集对第一训练结构进行对比式预训练。将对比式预训练后的视觉编码器和大语言模型串联得到第二训练结构,根据训练集对第二训练结构进行生成式预训练。将生成式预训练后的视觉编码器和大语言模型与参数固定的解码器串联得到第三训练结构,根据训练集对其中的视觉编码器和大语言模型进行微调。本公开通过对视觉编码器进行参数扩大实现初步的模型参数对齐,进一步通过三阶段训练方式进行模型训练,提升训练效率与训练结果的准确性。
技术关键词
图像特征向量
大语言模型
图像特征编码
文本特征向量
交叉注意力机制
样本
参数
对齐方法
非易失性计算机可读存储介质
计算机程序指令
解码器
训练集
电子设备
对齐装置
模块
视觉
处理器
存储器