摘要
本发明提供了一种语音转化方法、装置、设备及可读存储介质,通过先将待转换音频和参考音频通过音频量化器进行压缩量化,以生成待转换音频的语义编码和参考音频的参考编码,接着,将语义编码和参考编码按其梅尔频谱的长度进行对齐,以拼接成一组特征向量,调用音频大语言模型对特征向量进行自回归解码生成输出编码,将参考音频的梅尔频谱输入音色风格网络生成感知向量,将输出编码和感知向量融合生成向量编码;再接着,调用流预测网络结合时间序列embedding和先验分布对向量编码进行处理,以逐步生成梅尔频谱;最后,将梅尔频谱通过声码器还原为目标语音信号,解决了现有的小规模的模型对细微声音特征还原效果不够理想的问题。