基于图文交错的视觉语言多模态大语言模型预训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于图文交错的视觉语言多模态大语言模型预训练方法
申请号:CN202411514057
申请日期:2024-10-29
公开号:CN119377678A
公开日期:2025-01-28
类型:发明专利
摘要
本发明公开了一种基于图文交错的视觉语言多模态大语言模型(Vision Large Language Model,VLM)预训练方法。其包括以下步骤:S1、构建图文交错数据集,图片描述数据集,文本数据集S2、构建多模态大语言模型架构,利用图片描述进行视觉模型的向量空间向文本向量空间的初步融合S3、利用图文交错数据,融合视觉信息与文本信息,优化多模态大模型对视觉的理解能力。通过本方案,可以在保持大语言模型在文本理解,逻辑推理的能力的情况下,充分融合视觉信息与文本信息在生成大模型的视觉理解能力。同时,由于图文交错数据的构建,该方法训练的多模态大模型具备处理多张图片的能力。本方案适用于AIGC领域。
技术关键词
大语言模型 预训练方法 多模态 图文 图片 融合视觉 数据 注意力 文本理解 文本编码器 图像编码器 矩阵 线性 样本 书籍 网络 论文 分词