一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置
申请号:CN202510040324
申请日期:2025-01-10
公开号:CN119964053B
公开日期:2025-10-03
类型:发明专利
摘要
一种基于多模态特征融合的深度伪造音视频细粒度检测方法和装置,包含一个基于多模态特征融合辅以注意力机制的神经网络模型,从单一模态和跨模态两个维度,分别对近距离的特征相似信息和远距离的特征差异信息进行整合分析,输出细粒度检测结果,其方法包括:首先,获取说话人伪造音视频数据集并进行数据预处理,用于模型的训练;然后构建本发明提出的神经网络模型,并训练至拟合;将待检测音视频进行相同的预处理操作后,输入训练完成的神经网络模型进行处理,最后由模型输出细粒度检测结果。本发明能解决对当前说话人深度伪造音视频缺乏精确细粒度检测方法的问题。
技术关键词
细粒度检测方法 多模态特征融合 神经网络模型 音频特征 视觉特征 编码器 注意力机制 多任务 特征提取模块 对音视频 远距离 数据 跨模态