摘要
本申请公开了一种语音分离方法、装置、存储介质及设备,该方法包括:首先获取待分离的混合语音和目标视频;并提取混合语音的声学特征;然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型,得到目标用户的唇形特征;接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型,得到混合语音的分离概率;再根据混合语音的分离概率,结合波束形成算法,计算混合语音对应的多模波束特征,进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型,并根据模型输出的掩蔽信号,从混合语音中更为准确的分离出目标语音,从而提高了对于目标语音的分离效果。