一种基于协作学习与IoST数据的场景图生成方法

申请号：CN202510839242

申请日期：2025-06-23

公开号：CN120374960B

公开日期：2025-09-12

类型：发明专利

摘要

本申请涉及一种基于协作学习与IoST数据的场景图生成方法，该方法通过对IoST场景下的图片进行目标检测，得到图片中主语目标/宾语目标的视觉特征；对于主语目标的视觉特征，计算出主语目标与宾语目标之间的差异引导提示向量；将添加位置编码得到的初始视觉块特征、差异引导提示向量经过多层第一Transformer，基于各层中的注意力机制将每层输入的任意一种视觉块特征与对应差异引导提示向量进行融合，而最后一层输出若干个主语视觉特征块；对宾语目标的视觉特征进行相同处理，得到若干个宾语视觉特征块；基于各主语视觉特征块与各宾语视觉特征块得到关系分类结果；最后，基于关系分类结果、主语目标、宾语目标构建出场景图。

技术关键词

视觉特征生成方法语义向量图片场景坐标解码器数据线性分类器关系多层感知机编码向量矩阵检测器注意力机制尺寸