摘要
本发明公开一种多模态深度伪造检测方法及系统,涉及伪造检测技术领域,解决多模态融合时有失偏颇的侧重以及不可忽视的模态信息冲突的技术问题;本发明包括多模态深度伪造检测模型,所述模型从视频数据和音频数据中分别提取视频模态特征和音频模态特征,而后再对视频模态特征和音频模态特征分别进行深层提取再利用融合权重进行融合,最后根据融合后的特征得到预测结果;对多模态深度伪造检测模型进行训练时,基于音频模态特征和视频模态特征进行自适应模态对比学习得到自适应模态对比损失;本发明通过引入正交约束,确保了不同模态的梯度在更新时不会互相干扰,在解决单模态与多模态梯度冲突的同时,提升模态融合的多样性和互补性。