摘要
本发明涉及人工智能,公开一种具有条件匹配流的语音合成方法、装置、设备及介质,包括:接收文本信息,将文本信息编码为高维隐向量,获得文本信息向量;根据文本信息和语音之间的对齐关系形成标签信息,预测文本信息与语音的声学特征之间的关系;根据文本信息向量于语音数据集中匹配获取对应的文本相关语音,根据高斯噪声、文本相关语音和时间步生成中间态语音,采用条件匹配流模型根据中间态语音和时间步进行噪声预测,获得预测噪声,计算输入的高斯噪声和预测噪声之间的损失,并根据预测噪声结合中间态语音提取获得文本相关语音的声学特征;采用声学解码器根据获得的文本相关语音的声学特征生成解码语音波形。提升语音合成质量。