文本引导的语音合成方法、装置、计算机设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文本引导的语音合成方法、装置、计算机设备及存储介质
申请号:CN202510192011
申请日期:2025-02-20
公开号:CN120015011B
公开日期:2025-12-02
类型:发明专利
摘要
本申请属于人工智能技术领域,涉及一种文本引导的语音合成方法,包括对语音数据集进行风格标签标注和场景噪声注入,得到参考语音集;将参考语音集和文本数据集输入声学模型;通过风格编码器对风格标签进行编码,得到风格编码特征;通过参考编码器对参考语音进行编码,得到参考语音编码特征;通过文本编码器对文本进行编码,得到文本编码特征;将全部编码特征输入声学结构,获得语音声学特征;将语音声学特征输入声码器合成波形,得到预测合成语音进行训练,得到语音合成模型。本申请还提供一种文本引导的语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待转换文本可存储于区块链中。本申请提高语音合成的效率与质量。
技术关键词
编码特征 语音声学特征 风格 语音编码 文本编码器 声学结构 标签 计算机可读指令 数据 转换文本 流解码器 信噪比 声码器 计算机设备 情感识别模型
系统为您推荐了相关专利信息
图像增强模块 亮度 昼夜 图像生成网络 监测模块
医学图像配准方法 编码器 编码特征 图像配准模型 注意力
位置编码信息 融合编码信息 像素点 风格图像生成方法 图像编码
动画制作方法 运动矢量数据 视频 工作流执行 节点
机器学习算法 构建卷积神经网络 模式识别 生成对抗网络 支持向量机算法