摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于残差量化的语音生成方法、装置、设备及介质,包括:获取待生成语音的目标文本;将目标文本输入到文本风格预测器中,对目标文本进行文本编码与风格预测处理,获得文本特征与风格向量;对风格向量进行残差向量量化处理,将风格向量压缩为风格离散码;对风格离散码进行解码处理,将风格解码结果和文本特征输入到语音生成模型中进行联合语音生成预测,生成风格语音特征;对风格语音特征进行解码处理,生成目标文本的风格语音。通过以目标文本控制合成语音的风格,提高风格控制的灵活性,并通过残差向量量化处理捕捉更加精细的风格信息,提高语音风格的合成效果。