摘要
本申请涉及一种歌声合成模型处理方法、歌声合成方法、设备和存储介质。歌声合成模型的处理方法包括:将样本特征输入待训练的歌声合成模型中歌声特征预测器,得到预测歌声特征,并通过预测歌声特征训练歌声特征预测器;将样本歌声信号对应的样本频谱信息输入歌声合成模型中的频谱生成模块,得到预测频谱信息,通过预测频谱信息训练频谱生成模块;将样本歌词文本对应的语义信息输入歌声合成模型的扩散模块,得到样本歌声信号对应的先验特征,并利用先验特征训练扩散模块;根据训练完成的歌声特征预测器、频谱生成模块以及扩散模块,得到训练完成的歌声合成模型。采用本方法不需要依赖于曲谱信息的标注,能降低模型标注的成本。