基于大语言模型的语音合成方法、装置、设备及存储介质

申请号：CN202510994824

申请日期：2025-07-17

公开号：CN120766653A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及人工智能技术领域，可运用于医疗领域和金融科技领域，公开了基于大语言模型的语音合成方法、装置、设备及存储介质，应用于应用于金融资讯实时播报场景中，或应用于医疗领域的问诊记录与病例生成场景中，其中方法包括：获取包括环境噪声的原始语音波形，并提取原始语音波形中的声学标记，生成离散声学标记；对离散声学标记进行去噪处理，生成去噪后声学标记；对去噪后声学标记进行声学嵌入，生成目标声学嵌入；获取待合成文本，将目标声学嵌入和待合成文本拼接，并基于拼接后信息进行联合自回归生成处理，生成目标声学标记；对目标声学标记进行进行解码，生成目标语音波形。本发明提升了噪声环境下的语音合成质量。

技术关键词

大语言模型语音波形标记文本时序特征生成上下文感知解码可读存储介质人工智能技术生成场景声码器处理器金融计算机设备模块上采样多尺度存储器