基于大语言模型的语音合成方法、装置、设备及存储介质
申请号:CN202510994824
申请日期:2025-07-17
公开号:CN120766653A
公开日期:2025-10-10
类型:发明专利
摘要
本发明涉及人工智能技术领域,可运用于医疗领域和金融科技领域,公开了基于大语言模型的语音合成方法、装置、设备及存储介质,应用于应用于金融资讯实时播报场景中,或应用于医疗领域的问诊记录与病例生成场景中,其中方法包括:获取包括环境噪声的原始语音波形,并提取原始语音波形中的声学标记,生成离散声学标记;对离散声学标记进行去噪处理,生成去噪后声学标记;对去噪后声学标记进行声学嵌入,生成目标声学嵌入;获取待合成文本,将目标声学嵌入和待合成文本拼接,并基于拼接后信息进行联合自回归生成处理,生成目标声学标记;对目标声学标记进行进行解码,生成目标语音波形。本发明提升了噪声环境下的语音合成质量。
技术关键词
大语言模型
语音
波形
标记
文本
时序特征
生成上下文感知
解码
可读存储介质
人工智能技术
生成场景
声码器
处理器
金融
计算机设备
模块
上采样
多尺度
存储器