一种基于深度学习的个性化语音克隆方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于深度学习的个性化语音克隆方法及系统
申请号:CN202410979327
申请日期:2024-07-22
公开号:CN118522269B
公开日期:2025-01-24
类型:发明专利
摘要
本发明公开了一种基于深度学习的个性化语音克隆方法及系统,涉及语音克隆技术领域,包括:采集目标用户的语音样本;基于卷积神经网络,提取语音样本的高维特征;基于变分自编码器,将高维特征编码为低维向量;利用预设合成模型,将低维向量转化为语音特征序列;以语音样对应的文本和语音特征序列为训练样本,对预设合成模型进行训练,得到训练好的合成模型;基于训练好的合成模型,提取待克隆文本的语音特征序列;将待克隆文本的语音特征序列输入到基于改进的WaveNet结构的语音合成模型,生成目标语音波形。本发明能够在少量语音数据的基础上,实现高质量的语音克隆。
技术关键词
语音特征 个性化语音 卷积神经网络提取 克隆方法 特征提取模块 短时傅里叶变换 监督学习方法 序列 文本 样本 语音克隆技术 波形 数据采集模块 语谱图 编码模块 包络 前馈神经网络 克隆系统 编码器