一种基于细粒度关系的开放词汇场景图生成方法

申请号：CN202510639406

申请日期：2025-05-19

公开号：CN120197617B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及人工智能技术领域，提供一种基于细粒度关系的开放词汇场景图生成方法，包括对待处理图像进行图像标注和视觉特征提取，分别得到场景图标注信息和视觉特征；对提示文本进行拆解，得到子词单元；进行视觉特征映射得到映射特征，将映射特征和子词单元输入到大语言模型中得到结构化序列，并根据隐藏层位置状态得到归一化边界框坐标；获取隐藏层状态，确定目标类别并根据隐藏层状态和目标类别得到词汇类别得分，并通过词汇类别得分得到子词类别得分，对结构化序列进行词汇替换，得到目标结构化序列；进行特殊词汇分割和词汇提取，得到三元关系组，从而得到目标场景图。本发明可以对待处理图像进行高效标注。

技术关键词

生成方法场景视觉特征提取序列关系多层感知机图像解码器坐标实体文本人工智能技术分块标记标签算法