一种视觉语言大模型的参数对齐方法、装置及存储介质

申请号：CN202510095871

申请日期：2025-01-22

公开号：CN119558379A

公开日期：2025-03-04

类型：发明专利

摘要

本申请公开了一种视觉语言大模型的参数对齐方法、装置及存储介质，涉及人工智能领域。包括：收集包含图像和对应文本描述的多模态数据集；对图像数据和文本数据进行预处理；将预处理多模态数据进行特征提取，生成特征向量；基于Transformer的架构分别构建视觉模型和语言模型；加入多模态对齐模块，将视觉模型和语言模型的参数进行关联；通过采用多模态结合多任务训练方法，将预处理多模态数据输入至视觉和语言模型，并对视觉模型和语言模型进行联合训练；通过相似度算法，计算图像和文本特征向量之间的关联程度；通过自回归算法和三元组损失函数对视觉模型和语言模型进行优化，得到视觉语言大模型，具有参数对齐能力，能够在图像和文本之间建立对应关系。

技术关键词

文本特征向量图像特征向量多模态三元组损失函数视觉对齐方法对齐模块回归算法生成特征向量参数图像编辑器跨模态对齐装置输入输出单元数据模态特征文本编码器