文本引导的语音合成方法、装置、计算机设备及存储介质
申请号:CN202510192011
申请日期:2025-02-20
公开号:CN120015011B
公开日期:2025-12-02
类型:发明专利
摘要
本申请属于人工智能技术领域,涉及一种文本引导的语音合成方法,包括对语音数据集进行风格标签标注和场景噪声注入,得到参考语音集;将参考语音集和文本数据集输入声学模型;通过风格编码器对风格标签进行编码,得到风格编码特征;通过参考编码器对参考语音进行编码,得到参考语音编码特征;通过文本编码器对文本进行编码,得到文本编码特征;将全部编码特征输入声学结构,获得语音声学特征;将语音声学特征输入声码器合成波形,得到预测合成语音进行训练,得到语音合成模型。本申请还提供一种文本引导的语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待转换文本可存储于区块链中。本申请提高语音合成的效率与质量。
技术关键词
编码特征
语音声学特征
风格
语音编码
文本编码器
声学结构
标签
计算机可读指令
数据
转换文本
流解码器
信噪比
声码器
计算机设备
情感识别模型