摘要
本发明涉及人工智能技术领域,提供一种基于细粒度关系的开放词汇场景图生成方法,包括对待处理图像进行图像标注和视觉特征提取,分别得到场景图标注信息和视觉特征;对提示文本进行拆解,得到子词单元;进行视觉特征映射得到映射特征,将映射特征和子词单元输入到大语言模型中得到结构化序列,并根据隐藏层位置状态得到归一化边界框坐标;获取隐藏层状态,确定目标类别并根据隐藏层状态和目标类别得到词汇类别得分,并通过词汇类别得分得到子词类别得分,对结构化序列进行词汇替换,得到目标结构化序列;进行特殊词汇分割和词汇提取,得到三元关系组,从而得到目标场景图。本发明可以对待处理图像进行高效标注。