一种基于场景图扩展的连续视觉概念学习方法

申请号：CN202510365826

申请日期：2025-03-26

公开号：CN120297412A

公开日期：2025-07-11

类型：发明专利

摘要

本发明是一种基于场景图扩展的连续视觉概念学习方法，属于机器视觉领域。该方法将场景图中丰富的语义信息通过大语言模型引入生成模型，并通过一种全新的注意力机制来引导模型生成过程，实现更高的个性化概念保真度以及文本保真度。本发明通过持续扩展场景图，确保模型在连续个性化生成任务中的高质量图像生成。利用数据集构建一个大型场景图，对训练数据集中的图像文本对进行关系抽取，并将抽取到的关系信息扩展到已有的场景图中，不断增加语义信息。生成阶段，用户输入的提示词首先从扩展后的场景图中检索相关的子图，然后将该子图输入至大语言模型，生成符合需求的场景布局。通过本发明设计的注意力机制，对生成过程进行有效引导，实现与场景布局相对应的图像生成。

技术关键词

概念学习方法采样模块场景变分自动编码器上采样注意力机制文本编码器三元组矩阵文本生成图像关系物体视觉预训练语言模型对象布局