基于图文交错的视觉语言多模态大语言模型预训练方法

申请号：CN202411514057

申请日期：2024-10-29

公开号：CN119377678A

公开日期：2025-01-28

类型：发明专利

摘要

本发明公开了一种基于图文交错的视觉语言多模态大语言模型(Vision Large Language Model，VLM)预训练方法。其包括以下步骤：S1、构建图文交错数据集，图片描述数据集，文本数据集S2、构建多模态大语言模型架构，利用图片描述进行视觉模型的向量空间向文本向量空间的初步融合S3、利用图文交错数据，融合视觉信息与文本信息，优化多模态大模型对视觉的理解能力。通过本方案，可以在保持大语言模型在文本理解，逻辑推理的能力的情况下，充分融合视觉信息与文本信息在生成大模型的视觉理解能力。同时，由于图文交错数据的构建，该方法训练的多模态大模型具备处理多张图片的能力。本方案适用于AIGC领域。

技术关键词

大语言模型预训练方法多模态图文图片融合视觉数据注意力文本理解文本编码器图像编码器矩阵线性样本书籍网络论文分词