摘要
本发明公开了一种基于图文交错的视觉语言多模态大语言模型(Vision Large Language Model,VLM)预训练方法。其包括以下步骤:S1、构建图文交错数据集,图片描述数据集,文本数据集S2、构建多模态大语言模型架构,利用图片描述进行视觉模型的向量空间向文本向量空间的初步融合S3、利用图文交错数据,融合视觉信息与文本信息,优化多模态大模型对视觉的理解能力。通过本方案,可以在保持大语言模型在文本理解,逻辑推理的能力的情况下,充分融合视觉信息与文本信息在生成大模型的视觉理解能力。同时,由于图文交错数据的构建,该方法训练的多模态大模型具备处理多张图片的能力。本方案适用于AIGC领域。