摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融技术领域,公开了语音合成方法、装置、计算机设备及存储介质。所述方法包括:获取待处理文本、插值后的噪音、未掩码的语音;将所述待处理文本、插值后的噪音、未掩码的语音输入至合成模型,由所述合成模型通过对待处理文本进行编码,并结合调整后的噪音以及未掩码的语音,学习时间维度上的特征变化,并将将噪音转换为目标语音特征,形成预测结果;输出所述预测结果。通过实施本发明实施例的方法可实现显著提升零样本TTS系统的运行效率和降低部署成本,还在保持音色一致性和内容保真度的同时,增强对齐的稳定性和语音的自然流畅度。