一种基于时序对应的自监督视频表征学习方法及其系统

申请号：CN202510202615

申请日期：2025-02-24

公开号：CN120198832A

公开日期：2025-06-24

类型：发明专利

摘要

本申请公开了一种基于时序对应的自监督视频表征学习方法，方法包括：基于给定视频数据训练集，针对每个视频，随机采样一帧作为当前帧，并对当前帧的图像块进行随机掩盖后，从当前帧的过去时刻和将来时刻分别采样一帧作为辅助帧；将辅助帧输入辅助分支，将掩码的当前帧输入学生分支，从辅助帧中检索与当前帧中掩码图像块最相似的图像块，进行表征重建，建立帧间的时序对应关系；将无掩码的当前帧输入教师分支中，通过自蒸馏机制生成监督信号，指导大模型对掩码的当前帧在隐空间进行表征重建，生成具有时间感知的高级语义表征。本发明方法降低表征重建的不确定性，且可以生成具有时间感知的高级语义表征。

技术关键词

表征学习方法时序图像块分支视频教师学生前馈神经网络语义重建误差学习系统交叉注意力机制注意力方法训练集关系梯度下降法处理器蒸馏