一种单阶段语音合成方法、装置、设备及存储介质

申请号：CN202411687489

申请日期：2024-11-22

公开号：CN119600986B

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及数据存储技术领域，公开了一种单阶段语音合成方法、装置、设备及存储介质，包括：通过单阶段TTS模型接收输入的待处理文本，并通过语义知识蒸馏算法对所述待处理文本进行语义增强处理，捕捉所述待处理文本中的深层语义特征；根据所述语义增强处理后的待处理文本进行音频生成，并在音频生成过程中，利用音频掩码建模算法随机掩盖部分音频信号，生成掩码音频信号；根据所述语义增强处理后的待处理文本和掩码音频信号预测未被掩盖的音频信号，生成符合所述深层语义特征且具有自然情感的音频信号。本发明采用单阶段TTS模型架构，将语义知识蒸馏算法和音频掩码建模算法相结合，简化生成流程，提升了推理速度，能够在实时场景中生成高质量音频。

技术关键词

音频语义特征文本建模算法语音信号阶段蒸馏预训练语言模型数据存储技术离散余弦变换可读存储介质语法结构处理器计算机设备存储器编码

系统为您推荐了相关专利信息

一种语音传输方法、装置、设备及介质

语音特征参数语音传输方法时间偏移量信号门控循环单元

基于5G消息的在线问诊方法及装置

在线问诊方法消息神经网络模型终端设备疾病

流程图处理方法、装置、设备、存储介质和程序产品

图像编码解码模型节点文本标识标签

医疗业务知识图谱生成以及问答处理方法、装置和设备

实体大语言模型文本图谱生成方法嵌入特征

基于双向可交互表单的AI对话系统及方法

对话系统标识符对话方法字段变量