摘要
本发明涉及数据存储技术领域,公开了一种单阶段语音合成方法、装置、设备及存储介质,包括:通过单阶段TTS模型接收输入的待处理文本,并通过语义知识蒸馏算法对所述待处理文本进行语义增强处理,捕捉所述待处理文本中的深层语义特征;根据所述语义增强处理后的待处理文本进行音频生成,并在音频生成过程中,利用音频掩码建模算法随机掩盖部分音频信号,生成掩码音频信号;根据所述语义增强处理后的待处理文本和掩码音频信号预测未被掩盖的音频信号,生成符合所述深层语义特征且具有自然情感的音频信号。本发明采用单阶段TTS模型架构,将语义知识蒸馏算法和音频掩码建模算法相结合,简化生成流程,提升了推理速度,能够在实时场景中生成高质量音频。