摘要
本发明是一种基于场景图扩展的连续视觉概念学习方法,属于机器视觉领域。该方法将场景图中丰富的语义信息通过大语言模型引入生成模型,并通过一种全新的注意力机制来引导模型生成过程,实现更高的个性化概念保真度以及文本保真度。本发明通过持续扩展场景图,确保模型在连续个性化生成任务中的高质量图像生成。利用数据集构建一个大型场景图,对训练数据集中的图像文本对进行关系抽取,并将抽取到的关系信息扩展到已有的场景图中,不断增加语义信息。生成阶段,用户输入的提示词首先从扩展后的场景图中检索相关的子图,然后将该子图输入至大语言模型,生成符合需求的场景布局。通过本发明设计的注意力机制,对生成过程进行有效引导,实现与场景布局相对应的图像生成。