摘要
本发明公开了一种基于基因学习模型的曲艺视频标注方法,本方法包括以下步骤:S1、提取视频的关键帧,记录关键帧在曲艺视频所有帧中的下标,计算当前关键帧的时间,并将关键帧输入特征提取网络进行特征提取;S2、分离曲艺视频的音频,提取音频特征;S3、将每个关键帧的视觉特征以及音频特征进行同步聚合,得到每帧的多模态融合特征,对所有关键帧的多模态融合特征进行时序聚合,得到视频级时序聚合特征;S4、根据得到的视频级时序聚合特征进行推理,得到视频级特征,根据得到的关键帧特征进行推理得到视频帧级特征;本发明可以实现对传统曲艺视频的多粒度标注,有助于后续对该视频的管理、检索,有利于传播中华文化。