基于大规模预训练模型Whisper的深度伪造音频检测防护方法

申请号：CN202510297989

申请日期：2025-03-13

公开号：CN120126481B

公开日期：2025-09-30

类型：发明专利

摘要

本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法，包括步骤S1：将待检测音频输入到预训练模型Whisper，在每个音频片段的微调过程中使用整个音频的转录文本作为提示，从而使得模型Whisper能够利用全局文本信息；步骤S2：在训练和解码过程中，对音频数据进行预处理以适配模型Whisper；步骤S3：通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法，通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务，还通过创新性的微调策略，将音频的完整转录文本作为提示信息嵌入到解码器中，跨越了传统声学特征单一依赖的问题。

技术关键词

检测防护方法音频预训练模型文本解码器微调方法声学特征标记编码器序列参数数据语音策略标签注意力定义令牌决策