基于大语言模型的语音合成方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的语音合成方法、装置、设备及存储介质
申请号:CN202510994824
申请日期:2025-07-17
公开号:CN120766653A
公开日期:2025-10-10
类型:发明专利
摘要
本发明涉及人工智能技术领域,可运用于医疗领域和金融科技领域,公开了基于大语言模型的语音合成方法、装置、设备及存储介质,应用于应用于金融资讯实时播报场景中,或应用于医疗领域的问诊记录与病例生成场景中,其中方法包括:获取包括环境噪声的原始语音波形,并提取原始语音波形中的声学标记,生成离散声学标记;对离散声学标记进行去噪处理,生成去噪后声学标记;对去噪后声学标记进行声学嵌入,生成目标声学嵌入;获取待合成文本,将目标声学嵌入和待合成文本拼接,并基于拼接后信息进行联合自回归生成处理,生成目标声学标记;对目标声学标记进行进行解码,生成目标语音波形。本发明提升了噪声环境下的语音合成质量。
技术关键词
大语言模型 语音 波形 标记 文本 时序特征 生成上下文感知 解码 可读存储介质 人工智能技术 生成场景 声码器 处理器 金融 计算机设备 模块 上采样 多尺度 存储器