一种基于视觉语义推理的动态场景图生成方法

申请号：CN202411693283

申请日期：2024-11-25

公开号：CN119540835B

公开日期：2025-11-04

类型：发明专利

摘要

本发明属于场景图生成子问题中的动态场景图生成领域，具体涉及一种基于视觉语义推理的动态场景图生成方法，包括：获取视频，将视频输入训练好的动态场景图生成模型，得到对象以及对象之间的关系类别，根据对象以及对象之间的关系类别构建视频的场景图结构；动态场景图生成模型包括：预训练好的对象检测器、时间关系编码模块、关系特征提取模块、空间知识编码器、时空关系解码模块以及分类模块；本发明计算相邻视频帧之间的视觉特征差异和语义特征差异并进行损失计算，为模型的正确预测提供方向；本发明利用空间编码器融合对象空间信息和时间依赖性，并利用先验知识筛选正确的关系标签，提高关系预测的准确性。

技术关键词

动态场景视频语义特征空间关系特征生成方法视觉特征特征提取模块掩码矩阵轨迹特征解码模块对象检测编码模块编码器编码特征