一种融合多模态信息的深度伪造视频检测方法及装置

申请号：CN202411489055

申请日期：2024-10-24

公开号：CN119251738B

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及一种融合多模态信息的深度伪造视频检测方法及装置，应用于视频检测技术领域。本发明采用了多头自注意力机制分别处理待检测视频的视频帧特征向量Xv和音频MEL频谱图的音频特征向量Xa，然后将所述待检测视频的视频帧特征向量Xv和所述音频MEL频谱图的音频特征向量Xa的两种模态特征进行加权融合，从而提升深度伪造视频检测方法的准确性与鲁棒性。多模态特征的融合能够充分利用不同模态信息的互补性，确保捕捉到更全面的特征，从而提升深度伪造视频检测的准确性与鲁棒性。

技术关键词

伪造视频检测方法融合多模态信息融合特征视频帧音频高维特征向量浮点型数据计算机执行指令注意力机制多模态注意力视频检测装置特征加权融合视频检测技术交互注意力多模态特征图像块处理器