摘要
本申请公开了一种目标说话人抽取方法、语音交互方法、装置、相关设备及计算机程序产品,本申请在对多通道原始语音信号进行语音分离的基础上,利用唤醒模型对每个区的分离语音信号进行唤醒识别,得到目标区的分离语音信号中的唤醒端点信息,进而针对该唤醒端点之间的语音信号提取目标说话人的属性信息,示例声纹信息、空间位置信息等,通过目标说话人抽取模型基于该属性信息及唤醒段的语音信号,估计得到目标说话人相关的语音信号。本申将唤醒阶段估计的目标说话人的属性信息作为参考信息,应用在识别阶段,可以有效减少现有方案的失真,提升了抽取的语音信号质量,进而有助于提高后续语音交互的成功率。