一种语音转化方法、装置、设备及可读存储介质

申请号：CN202411827075

申请日期：2024-12-12

公开号：CN119314501B

公开日期：2025-03-18

类型：发明专利

摘要

本发明提供了一种语音转化方法、装置、设备及可读存储介质，通过先将待转换音频和参考音频通过音频量化器进行压缩量化，以生成待转换音频的语义编码和参考音频的参考编码，接着，将语义编码和参考编码按其梅尔频谱的长度进行对齐，以拼接成一组特征向量，调用音频大语言模型对特征向量进行自回归解码生成输出编码，将参考音频的梅尔频谱输入音色风格网络生成感知向量，将输出编码和感知向量融合生成向量编码；再接着，调用流预测网络结合时间序列embedding和先验分布对向量编码进行处理，以逐步生成梅尔频谱；最后，将梅尔频谱通过声码器还原为目标语音信号，解决了现有的小规模的模型对细微声音特征还原效果不够理想的问题。

技术关键词

音频连续特征大语言模型交叉注意力机制转化方法网络量化器声码器生成向量语音转化装置风格深度学习模型编码器卷积模块输入流信号生成单元可读存储介质上采样