基于多模态的全局和局部协同性的说话人脸生成视频检测方法及装置
申请号:CN202510829793
申请日期:2025-06-20
公开号:CN120823537A
公开日期:2025-10-21
类型:发明专利
摘要
本发明公开了一种基于多模态的全局和局部协同性的说话人脸生成视频检测方法及装置,方法包括:对视频进行分帧和人脸区域提取预处理,使输入的音频在时间维度上与输入的视频帧对齐;构建说话人脸生成视频检测模型并进行训练,通过预设的区域关注平滑检测模块和差异捕获‑时间帧聚合模块来重点关注视频帧之间的不一致区域,同时将原始音频输入音频特征提取模块,而后通过预设的音视频融合模块对输入的音视频模态特征进行一致性计算并融合音视频特征,以此来对伪造生成视频进行判别以获取视频判别标签,然后计算损失训练模型;最后利用训练好的模型对待检测视频进行判别。本发明结合音频和视频特征,能够有效提升检测精度和鲁棒性。
技术关键词
视频检测方法
音频特征提取
人脸
多模态
频域特征提取
音视频交互
卷积模块
视频帧
视频特征向量
融合特征
交互注意力
计算机程序指令
标签
视频检测系统