一种基于深度学习的个性化语音克隆方法及系统

申请号：CN202410979327

申请日期：2024-07-22

公开号：CN118522269B

公开日期：2025-01-24

类型：发明专利

摘要

本发明公开了一种基于深度学习的个性化语音克隆方法及系统，涉及语音克隆技术领域，包括：采集目标用户的语音样本；基于卷积神经网络，提取语音样本的高维特征；基于变分自编码器，将高维特征编码为低维向量；利用预设合成模型，将低维向量转化为语音特征序列；以语音样对应的文本和语音特征序列为训练样本，对预设合成模型进行训练，得到训练好的合成模型；基于训练好的合成模型，提取待克隆文本的语音特征序列；将待克隆文本的语音特征序列输入到基于改进的WaveNet结构的语音合成模型，生成目标语音波形。本发明能够在少量语音数据的基础上，实现高质量的语音克隆。

技术关键词

语音特征个性化语音卷积神经网络提取克隆方法特征提取模块短时傅里叶变换监督学习方法序列文本样本语音克隆技术波形数据采集模块语谱图编码模块包络前馈神经网络克隆系统编码器