目标说话人抽取及语音交互方法、装置及相关设备

申请号：CN202411661157

申请日期：2024-11-20

公开号：CN119479681A

公开日期：2025-02-18

类型：发明专利

摘要

本申请公开了一种目标说话人抽取方法、语音交互方法、装置、相关设备及计算机程序产品，本申请在对多通道原始语音信号进行语音分离的基础上，利用唤醒模型对每个区的分离语音信号进行唤醒识别，得到目标区的分离语音信号中的唤醒端点信息，进而针对该唤醒端点之间的语音信号提取目标说话人的属性信息，示例声纹信息、空间位置信息等，通过目标说话人抽取模型基于该属性信息及唤醒段的语音信号，估计得到目标说话人相关的语音信号。本申将唤醒阶段估计的目标说话人的属性信息作为参考信息，应用在识别阶段，可以有效减少现有方案的失真，提升了抽取的语音信号质量，进而有助于提高后续语音交互的成功率。

技术关键词

语音交互方法多通道端点短时傅里叶变换波束交互动作计算机程序产品语音信号提取语音交互装置语音识别单元麦克风抽取装置处理器分区可读存储介质存储器阶段电子设备