摘要
本发明公开了一种语音生成方法、装置、计算机设备及存储介质,涉及大模型领域,方法包括:获取多模态音频数据,多模态音频数据包括以下一者或多者:音频数据、文本数据、midi数据、音素数据;对多模态音频数据进行统一量化,得到分别对应于不同模态的至少一个量化序列;根据目标语音生成任务,将至少一个量化序列进行拼接,得到目标量化序列,目标语音生成任务包括以下一者或多者:TTA任务、SVS任务、VC任务、SE任务、TTS任务;将目标量化序列以及条件序列输入预训练的语音生成大模型,生成预测语音序列。无需对多种语音生成任务进行独立建模,可以实现多种语音任务的整合,能有效提升各类语音生成任务的性能上限和鲁棒性。