摘要
本发明实施例提供一种基于无监督特征的声音转换方法、系统、电子设备和存储介质。该方法包括:将源说话人的第一音频以及目标说话人的第二音频输入至基于无监督特征的声音转换模型;基于自监督语音模型提取源说话人的第一音频中的无监督特征;通过声纹提取模型来提取第二音频中包括音色及语调的x‑vector特征;利用转换模型将无监督特征映射到目标说话人的目标语音特征域,得到音色转换特征;将x‑vector特征作为个性化的辅助特征对音色转换特征在声码器中进行特征重建,得到目标说话人的转换音频。本发明实施例基于无监督特征提取的声音转换模型能够实现高效的声音转换并且能提高模型的泛化能力,取得更优异的声音转换效果。