摘要
本发明公开了一种基于视听骨融合的语音增强方法和装置,所述方法包括:获取语音增强训练数据集;利用所述语音增强训练数据集,对预设的语音增强模型进行训练处理,得到训练完毕的语音增强模型;采集得到用户在讲话状态下的多模态数据集;所述多模态数据集,包括视频数据、气导数据和骨导数据;所述多模态数据集,是基于同一时间基准采集得到;利用所述训练完毕的语音增强模型,对所述多模态数据集进行处理,得到增强语音信息。本发明能够有效利用三模态的信息应对高噪声环境下的语音增强挑战,在特定说话人增强和说话人分离方面取得显著成效。此外,本发明还克服了在视听语音增强中光照变化和人体头部姿态运动带来的干扰,以及气骨语音增强中高频信息缺失的挑战,进一步优化了语音增强的稳定性和准确性。