摘要
本发明提供了一种目标说话人的语音识别方法、系统及相关设备,方法包括获取说话人参考音频和待识别音频;将说话人参考音频和待识别音频输入目标说话人语音识别模型,通过模型中的ECAPA‑TDNN子模型从说话人参考音频中提取得到目标说话人的音色特征;通过模型中的Wav2Vec2.0子模型从待识别音频中提取得到音频通用声学特征;将音色特征和音频通用声学特征输入模型中的TS‑Conformer编码器进行特征筛选获得目标说话人声学特征;将目标说话人声学特征输入模型中的Transformer解码器生成目标说话人的预测文本。通过本发明的技术方案,能够有效的从待识别音频中分离出目标说话人的语音并输出对应文本。