摘要
本申请实施例了提供一种视频分类方法,该视频分类方法包括:获取训练数据集,训练数据集包括多个训练图像序列;将训练图像序列输入至转换器模型中,利用转换器模型将训练图像序列中的每个帧图像分割为若干个小块,转换器模型中的编码器中包括若干个转换器模块,至少部分转换器模块中包括令牌合并单元,每个小块对应转换器模块的一个令牌;利用令牌合并单元根据小块的相似度对部分小块进行合并,得到训练图像序列更新后的第一令牌;将第一令牌输入到转换器模型的解码器中得到训练图像序列的分类结果;在转换器模型达到预设精度后,得到训练后的转换器模型。本申请实施例的方案可以扩大人工智能模型的感知范围,提高视频分类的准确率。