一种提升合成音频自然度以及降噪的方法

申请号：CN202510003560

申请日期：2025-01-02

公开号：CN119785762B

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及一种提升合成音频自然度以及降噪的方法，包括以下步骤：步骤1，构建音素编码器，步骤2，构建方差适配器，步骤3，构建频谱降噪器，实现提升合成音频自然度以及降噪；该方案提出在音素编码器阶段，加入基于Transformer的双向编码器，能够利用较少的训练资源，完成语音合成模型的训练；本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务，借助于小波分解在图像去噪领域的应用，将其引入语音合成网络，成功地减少了生成音频的噪声。

技术关键词

编码器音频适配器深度学习模型维基百科时间序列模型降噪器符号线性生成训练样本语音数据状态空间模型前馈神经网络文本处理器注意力机制计算机