语音转换方法以及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音转换方法以及装置
申请号:CN202511242460
申请日期:2025-09-01
公开号:CN120954387A
公开日期:2025-11-14
类型:发明专利
摘要
本申请公开了一种语音转换方法以及装置,方法包括:将帧级声学特征序列与音素级文本特征序列对齐,以生成关注内容信息的音素级声学特征序列;基于音素级文本特征序列、音素级声学特征序列、目标对象标识,生成同时携带内容和声学信息的音素级隐变量序列;将音素级隐变量序列输入训练好的时长预测网络,得到与音素级隐变量序列对应的预测时长序列;基于预测时长序列对音素级隐变量序列中各个音素级隐变量进行时长拓展,得到帧级隐变量序列;基于帧级隐变量序列生成与目标对象标识对应的目标音频;本申请既能保留源音频的情感,不泄露音色,又能生成更接近目标说话人韵律和音色的音频。
技术关键词
声学特征 序列 变量 文本 语音转换方法 音频 标识 对象 文字特征 语音转换装置 网络 存储计算机程序 指令 计算机程序产品 处理器 模块 数据 语义特征 可读存储介质 存储器