图文数据集的构造方法、系统、设备、存储介质及产品

申请号：CN202510526455

申请日期：2025-04-25

公开号：CN120069093B

公开日期：2025-09-16

类型：发明专利

摘要

本申请公开了一种图文数据集的构造方法、系统、设备、存储介质及产品，涉及文本处理技术领域，包括：基于各个原始图像各自对应的原始文本，提取实体、实体属性和实体间关系，并基于实体、实体属性和实体间关系构建前景特征知识库；提取各原始文本中的背景描述样本，并基于背景描述样本构建背景特征知识库；基于前景特征知识库和背景特征知识库构造文本，得到目标提示文本；利用目标提示文本生成相应的目标图像，并基于目标图像和相应的目标提示文本形成图文对，以用于构建图文数据集。本申请技术方案旨在解决如何构造出文本质量较高的文生图模型提示文本，以便构造出质量较高的图文数据集的技术问题。

技术关键词

大语言模型实体间关系图文知识库构造词语图像数据构造系统计算机程序产品视觉特征文本处理技术样本预训练模型处理器语义模块电子设备