一种基于场景图扩展的连续视觉概念学习方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于场景图扩展的连续视觉概念学习方法
申请号:CN202510365826
申请日期:2025-03-26
公开号:CN120297412A
公开日期:2025-07-11
类型:发明专利
摘要
本发明是一种基于场景图扩展的连续视觉概念学习方法,属于机器视觉领域。该方法将场景图中丰富的语义信息通过大语言模型引入生成模型,并通过一种全新的注意力机制来引导模型生成过程,实现更高的个性化概念保真度以及文本保真度。本发明通过持续扩展场景图,确保模型在连续个性化生成任务中的高质量图像生成。利用数据集构建一个大型场景图,对训练数据集中的图像文本对进行关系抽取,并将抽取到的关系信息扩展到已有的场景图中,不断增加语义信息。生成阶段,用户输入的提示词首先从扩展后的场景图中检索相关的子图,然后将该子图输入至大语言模型,生成符合需求的场景布局。通过本发明设计的注意力机制,对生成过程进行有效引导,实现与场景布局相对应的图像生成。
技术关键词
概念学习方法 采样模块 场景 变分自动编码器 上采样 注意力机制 文本编码器 三元组 矩阵 文本生成图像 关系 物体 视觉 预训练语言模型 对象 布局