摘要
本发明涉及人工智能技术领域,可应用于医疗健康、金融科技等业务场景,公开了一种语音生成方法,包括:构建多语言语音合成模型,获取纯文本数据及配对语音文本数据,构建扩展词汇表;更新语言感知嵌入层和模型参数,将输入文本转换为标记序列;编码器提取上下文语义特征,提取发音规则特征,解码器融合特征生成声学特征序列,并转换为目标语音数据。本发明通过多语言语音合成模型结合语言感知嵌入层,提高低资源语言的语音生成能力;扩展词汇表提升文本转换准确性,无监督训练增强目标语言学习能力,监督训练优化低数据环境适应性,特征融合提升语音自然度和流畅性。