一种语音分离方法、装置、存储介质及设备

申请号：CN202510004246

申请日期：2025-01-02

公开号：CN119785817A

公开日期：2025-04-08

类型：发明专利

摘要

本申请公开了一种语音分离方法、装置、存储介质及设备，该方法包括：首先获取待分离的混合语音和目标视频；并提取混合语音的声学特征；然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型，得到目标用户的唇形特征；接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型，得到混合语音的分离概率；再根据混合语音的分离概率，结合波束形成算法，计算混合语音对应的多模波束特征，进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型，并根据模型输出的掩蔽信号，从混合语音中更为准确的分离出目标语音，从而提高了对于目标语音的分离效果。

技术关键词

声学特征唇形特征波束特征样本视频跨模态音频编码图像编码语音活动检测支路长短期记忆网络可读存储介质终端设备处理器算法存储器