语音生成方法、装置、计算机设备及存储介质

申请号：CN202410823160

申请日期：2024-06-25

公开号：CN118398001B

公开日期：2024-11-08

类型：发明专利

摘要

本发明公开了一种语音生成方法、装置、计算机设备及存储介质，涉及大模型领域，方法包括：获取多模态音频数据，多模态音频数据包括以下一者或多者：音频数据、文本数据、midi数据、音素数据；对多模态音频数据进行统一量化，得到分别对应于不同模态的至少一个量化序列；根据目标语音生成任务，将至少一个量化序列进行拼接，得到目标量化序列，目标语音生成任务包括以下一者或多者：TTA任务、SVS任务、VC任务、SE任务、TTS任务；将目标量化序列以及条件序列输入预训练的语音生成大模型，生成预测语音序列。无需对多种语音生成任务进行独立建模，可以实现多种语音任务的整合，能有效提升各类语音生成任务的性能上限和鲁棒性。

技术关键词

序列语音生成方法融合特征特征分布信息多模态编码器数据解码器计算机设备文本矢量量化标签音频特征拼接模块标识可读存储介质