摘要
本发明公开了一种目标语音生成方法及系统,方法包括以下步骤:获取第一语音、第二语音以及目标文本;根据第一语音提取信息特征;根据第二语音提取风格特征;根据目标文本提取音素对应特征;根据信息特征、风格特征以及音素对应特征生成目标语音。本发明以第一语音的信息特征为基础,进一步整合了第二语音的风格特征;即便在面临训练样本有限的情况下,本发明也能灵活生成任意说话人在多样化场景中的音频,不仅极大地丰富了音频表达的维度与深度;并且这种跨语音特征的融合显著提升了目标语音的表达力和说服力,使其更加贴近真实人类交流的情感浓度,能够大大增加目标语音的自然度,从而引起听众的共鸣。