语音生成方法、装置、计算机设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音生成方法、装置、计算机设备及存储介质
申请号:CN202410823160
申请日期:2024-06-25
公开号:CN118398001B
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种语音生成方法、装置、计算机设备及存储介质,涉及大模型领域,方法包括:获取多模态音频数据,多模态音频数据包括以下一者或多者:音频数据、文本数据、midi数据、音素数据;对多模态音频数据进行统一量化,得到分别对应于不同模态的至少一个量化序列;根据目标语音生成任务,将至少一个量化序列进行拼接,得到目标量化序列,目标语音生成任务包括以下一者或多者:TTA任务、SVS任务、VC任务、SE任务、TTS任务;将目标量化序列以及条件序列输入预训练的语音生成大模型,生成预测语音序列。无需对多种语音生成任务进行独立建模,可以实现多种语音任务的整合,能有效提升各类语音生成任务的性能上限和鲁棒性。
技术关键词
序列 语音生成方法 融合特征 特征分布信息 多模态 编码器 数据 解码器 计算机设备 文本 矢量量化 标签 音频特征 拼接模块 标识 可读存储介质