摘要
本发明提供了一种调解员音色克隆方法、系统、电子设备及存储介质。方法包括:响应于用户输入的选择指令,选择调解员音色;获取输入文本;利用自回归模型预测输入文本的目标音频特征向量;在音频字典中查找与目标音频特征向量匹配的目标聚类中心,其中,音频字典中包括多个聚类簇,每一聚类簇中包括多个音频特征向量;将输入文本的输入文本音素、参考音频的频率特征以及目标聚类中心输入到经训练的声学模型中,以得到目标输出音频,其中,参考音频为与调解员音色对应的调解员音频。该方法可以提升调解效率、确保服务一致性、提高用户体验,具有较佳的实用性与市场竞争力。