一种用于语音分离和目标语音提取的通用模型

申请号：CN202510694233

申请日期：2025-05-27

公开号：CN120544592A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种用于语音分离和目标语音提取的通用模型，涉及语音领域，包括分离网络、EDA模块和线索网络三个部分；所述分离网络基于频带划分递归神经网络，即BSRNN，是一种频域分离网络；将所述EDA模块引入频域语音分离模型BSRNN，使其具备处理未知、可变说话人数量的混杂语音的能力；使用RawNet3作为所述线索网络，实现目标语音提取的功能。本模型能根据输入的不同在不同的任务间灵活切换，实现“通用”的效果，使模型的灵活性和泛用性大大提高，进而也避免了针对不同任务使用不同模型带来的额外开销，降低了成本。

技术关键词

语音线索递归神经网络模块傅里叶变换处理序列短时傅里叶变换长短期记忆网络多层感知机解码器编码器线性分阶段信噪比索引分支信号策略