一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置

申请号：CN202510040324

申请日期：2025-01-10

公开号：CN119964053B

公开日期：2025-10-03

类型：发明专利

摘要

一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置，包含一个基于多模态特征融合辅以注意力机制的神经网络模型，从单一模态和跨模态两个维度，分别对近距离的特征相似信息和远距离的特征差异信息进行整合分析，输出细粒度检测结果，其方法包括：首先，获取说话人伪造音视频数据集并进行数据预处理，用于模型的训练；然后构建本发明提出的神经网络模型，并训练至拟合；将待检测音视频进行相同的预处理操作后，输入训练完成的神经网络模型进行处理，最后由模型输出细粒度检测结果。本发明能解决对当前说话人深度伪造音视频缺乏精确细粒度检测方法的问题。

技术关键词

细粒度检测方法多模态特征融合神经网络模型音频特征视觉特征编码器注意力机制多任务特征提取模块对音视频远距离数据跨模态