摘要
本申请涉及一种基于协作学习与IoST数据的场景图生成方法,该方法通过对IoST场景下的图片进行目标检测,得到图片中主语目标/宾语目标的视觉特征;对于主语目标的视觉特征,计算出主语目标与宾语目标之间的差异引导提示向量;将添加位置编码得到的初始视觉块特征、差异引导提示向量经过多层第一Transformer,基于各层中的注意力机制将每层输入的任意一种视觉块特征与对应差异引导提示向量进行融合,而最后一层输出若干个主语视觉特征块;对宾语目标的视觉特征进行相同处理,得到若干个宾语视觉特征块;基于各主语视觉特征块与各宾语视觉特征块得到关系分类结果;最后,基于关系分类结果、主语目标、宾语目标构建出场景图。