摘要
本发明公开了一种基于深度学习的个性化语音克隆方法及系统,涉及语音克隆技术领域,包括:采集目标用户的语音样本;基于卷积神经网络,提取语音样本的高维特征;基于变分自编码器,将高维特征编码为低维向量;利用预设合成模型,将低维向量转化为语音特征序列;以语音样对应的文本和语音特征序列为训练样本,对预设合成模型进行训练,得到训练好的合成模型;基于训练好的合成模型,提取待克隆文本的语音特征序列;将待克隆文本的语音特征序列输入到基于改进的WaveNet结构的语音合成模型,生成目标语音波形。本发明能够在少量语音数据的基础上,实现高质量的语音克隆。