摘要
本申请公开了一种视觉语言大模型的参数对齐方法、装置及存储介质,涉及人工智能领域。包括:收集包含图像和对应文本描述的多模态数据集;对图像数据和文本数据进行预处理;将预处理多模态数据进行特征提取,生成特征向量;基于Transformer的架构分别构建视觉模型和语言模型;加入多模态对齐模块,将视觉模型和语言模型的参数进行关联;通过采用多模态结合多任务训练方法,将预处理多模态数据输入至视觉和语言模型,并对视觉模型和语言模型进行联合训练;通过相似度算法,计算图像和文本特征向量之间的关联程度;通过自回归算法和三元组损失函数对视觉模型和语言模型进行优化,得到视觉语言大模型,具有参数对齐能力,能够在图像和文本之间建立对应关系。