摘要
本申请涉及视频处理技术领域,尤其涉及一种视频标签识别及模型训练方法、装置、设备和介质,用以高效准确地识别中视频、长视频的标签。方法包括:对各视频帧分别进行编码,获得相应的全局特征和局部特征,并基于特征相似度,分别对获得的全局特征集和局部特征集进行压缩,得到预设存储长度的全局特征序列和局部特征序列;对预训练获得的全局查询特征和局部查询特征进行拼接后,采用自注意力机制提取出相应的自注意力特征;采用交叉注意力机制,提取自注意力特征与全局特征序列中每个全局特征之间的第一交叉注意力特征,与局部特征序列中每个局部特征之间的第二交叉注意力特征;基于各第一交叉注意力特征和各第二交叉注意力特征,识别视频标签。