用于语音合成的方法、装置、设备和可读介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于语音合成的方法、装置、设备和可读介质
申请号:CN202411008685
申请日期:2024-07-25
公开号:CN118737122A
公开日期:2024-10-01
类型:发明专利
摘要
本公开的实施例提供了一种用于语音合成的方法、装置、设备和可读介质。根据本公开的实施例,利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列。基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征。利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码。利用解码器模型,基于遮蔽特征码和预测音素序列执行解码操作,以获取第一预测特征码。至少基于第一预测特征码生成目标文本对应的语音波形。以此方式,实现零样本语音合成。同时使模型能够同时实现语音克隆和语音编辑任务。
技术关键词
声学特征 预测特征 语音 序列 解码器模型 文本 音频 波形 编辑 编码器 处理单元 语义特征提取 融合特征 双向变换器 遮蔽模块 样本 解码模块