基于大规模预训练模型Whisper的深度伪造音频检测防护方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大规模预训练模型Whisper的深度伪造音频检测防护方法
申请号:CN202510297989
申请日期:2025-03-13
公开号:CN120126481B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法 音频 预训练模型 文本 解码器 微调方法 声学特征 标记 编码器 序列 参数 数据 语音 策略 标签 注意力 定义 令牌 决策