一种语言增强方法、装置、计算机设备及存储介质

申请号：CN202511269903

申请日期：2025-09-05

公开号：CN121034328A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及语音处理技术领域，可应用于金融及医疗领域，公开了一种语言增强方法、装置、计算机设备及存储介质，方法包括：获取带噪声的输入语音信号；通过预训练的生成式音频编码器将带噪声的输入语音信号转换为噪声嵌入数据；通过去噪编码器对噪声嵌入数据进行去噪处理，得到干净嵌入数据；通过预训练的声码器将干净嵌入数据转换为增强后的目标语音信号。本发明有效提升增强后语音的自然度与说话人一致性，降低了对复杂噪声分布的建模难度，减少语音失真，同时大幅降低了模型参数量与训练复杂度，提升了推理速度，使其能在低资源环境下实现实时应用。

技术关键词

音频编码器噪声语音数据语音特征解码网络计算机设备信号时域波形多层卷积网络音频特征提取转换单元处理器恢复算法声谱噪声特征声码器