摘要
本申请公开了一种基于时序对应的自监督视频表征学习方法,方法包括:基于给定视频数据训练集,针对每个视频,随机采样一帧作为当前帧,并对当前帧的图像块进行随机掩盖后,从当前帧的过去时刻和将来时刻分别采样一帧作为辅助帧;将辅助帧输入辅助分支,将掩码的当前帧输入学生分支,从辅助帧中检索与当前帧中掩码图像块最相似的图像块,进行表征重建,建立帧间的时序对应关系;将无掩码的当前帧输入教师分支中,通过自蒸馏机制生成监督信号,指导大模型对掩码的当前帧在隐空间进行表征重建,生成具有时间感知的高级语义表征。本发明方法降低表征重建的不确定性,且可以生成具有时间感知的高级语义表征。