基于多模态的全局和局部协同性的说话人脸生成视频检测方法及装置

申请号：CN202510829793

申请日期：2025-06-20

公开号：CN120823537A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种基于多模态的全局和局部协同性的说话人脸生成视频检测方法及装置，方法包括：对视频进行分帧和人脸区域提取预处理，使输入的音频在时间维度上与输入的视频帧对齐；构建说话人脸生成视频检测模型并进行训练，通过预设的区域关注平滑检测模块和差异捕获‑时间帧聚合模块来重点关注视频帧之间的不一致区域，同时将原始音频输入音频特征提取模块，而后通过预设的音视频融合模块对输入的音视频模态特征进行一致性计算并融合音视频特征，以此来对伪造生成视频进行判别以获取视频判别标签，然后计算损失训练模型；最后利用训练好的模型对待检测视频进行判别。本发明结合音频和视频特征，能够有效提升检测精度和鲁棒性。

技术关键词

视频检测方法音频特征提取人脸多模态频域特征提取音视频交互卷积模块视频帧视频特征向量融合特征交互注意力计算机程序指令标签视频检测系统