一种语音合成方法、装置、设备及其存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种语音合成方法、装置、设备及其存储介质
申请号:CN202411395152
申请日期:2024-09-30
公开号:CN119446114B
公开日期:2025-09-30
类型:发明专利
摘要
本申请实施例属于语音处理技术领域,应用于文本转语音场景中,涉及一种语音合成方法、装置、设备及其存储介质,通过获取合成参考语音和待进行语音合成的文本数据;将文本数据进行文本编解码处理,获得目标文本字符序列;将目标文本字符序列输入到训练完成的音素预测模型中,预测目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置;根据音素特征和发音起止时间位置对目标文本字符序列进行声学解码处理,获得目标输出语音。通过采用模型预测方式,预测出目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置,根据每个文本字符逐个解码,从而合成出目标输出语音,实现了快速高质量的进行语音合成输出。
技术关键词
字符 语音 文本处理器 发音 序列 Viterbi算法 嵌入位置信息 计算机可读指令 编解码 解码器 多头注意力机制 预测模型训练 规划 可读存储介质 动态 数据获取模块 编码