语音增强方法、训练方法、装置、计算机设备及存储介质
申请号:CN202511272403
申请日期:2025-09-05
公开号:CN121034331A
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融及医疗领域,公开了语音增强方法、训练方法、装置、计算机设备及存储介质,语音增强方法包括:接收嘈杂语音输入,通过预训练的分解编解码器对嘈杂语音进行编码处理,得到隐藏表示;利用预训练的语义扩散模型对隐藏表示进行逐步去噪处理,得到清晰语音对应的语义令牌序列;将语义令牌序列与嘈杂语音的隐藏表示结合作为条件,通过预训练的声学扩散模型进行逐步去噪处理,得到清晰语音对应的声学令牌序列;将语义令牌序列和声学令牌序列输入分解编解码器的解码器,重建生成清晰语音信号。本发明显著提升了复杂噪声环境下语音增强的鲁棒性,降低了噪声对语音关键属性的干扰。
技术关键词
令牌
语义
编解码器
序列
生成语音
计算机设备
语音特征
处理器
信号
训练装置
跨模态
数据
可读存储介质
存储器
鲁棒性
噪声
编码器