摘要
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的声音转换方法、装置、设备及介质。上述方法我难过获取源说话人的音高特征,确定音高特征的帧数,获取目标说话人的音色特征提取与情感特征,将音色特征与情感特征的帧数均扩充至与音高特征的帧数相等,将音高特征、扩充后的音色特征与扩充后的情感特征对齐后进行融合,得到第一融合特征,提取源语音内容,将源语音内容与第一融合特征进行融合,得到第二融合特征,根据第二融合特征,得到转换语音。本申请中,在语音转换过程中,将对应目标说话人的情感信息与音高信息融合至源说话人的内容信息中,使得到的转换后的目标语音可以更好体现目标说话人的声音,从而提高语音转换效果。