摘要
本发明涉及视频预测领域,尤其涉及一种基于对象分割引导的视频序列预测方法及系统,预测方法包括接收历史视频帧序列,并对历史视频帧序列进行视频对象分割与追踪处理,生成每一帧中各个对象的结构表征信息并为每个对象分配持续唯一的追踪ID;将结构表征信息与追踪ID编码为对象级结构化特征序列;将对象级结构化特征序列作为引导条件输入至条件扩散模型,通过迭代去噪过程生成代表未来视频帧的潜在空间中间特征;将潜在空间中间特征解码为像素级的未来视频帧序列。本发明解决了现有视频预测技术在对象一致性、物理真实性和误差累积等方面问题,还拓展了在复杂场景下的应用潜力,为自动驾驶、机器人感知、内容创作等领域的视频预测提供支撑。