面向VQTTS模型的语音合成缺陷修正方法、设备及存储介质
申请号:CN202510069537
申请日期:2025-01-16
公开号:CN120032621B
公开日期:2025-12-05
类型:发明专利
摘要
本申请涉及语音合成技术领域,尤其涉及一种面向VQTTS模型的语音合成缺陷修正方法、设备及存储介质,包括获取合成文本,定位合成缺陷位置的文本为缺陷短语T;使用大语言模型生成M个包含缺陷短语T的文本W;利用VQTTS对文本W进行语音合成,若是判断合成语音不存在缺陷,截取片段并添加至集合K中;将(T,K)配对添加至系统数据集中;获取待合成的输入文本W,生成M个长度为K的Oracle向量;若缺陷短语T是输入文本W的子字符串,更新Oracle向量;使用VQTTS和Beam Search算法生成修正后的韵律标签序列;选择最佳离散韵律标签序列并生成语音。本申请能够在不更新模型的前提下修正合成缺陷,解决语音合成缺陷修复的技术问题。
技术关键词
缺陷修正方法
文本
大语言模型
标签
生成语音
序列
声学特征
加载系统
数据
算法
程序
处理器
可读存储介质
存储器
矩阵
电子设备
波形
计算机
参数