目标说话人的语音识别方法、系统及相关设备

申请号：CN202510711212

申请日期：2025-05-29

公开号：CN120727005A

公开日期：2025-09-30

类型：发明专利

摘要

本发明提供了一种目标说话人的语音识别方法、系统及相关设备，方法包括获取说话人参考音频和待识别音频；将说话人参考音频和待识别音频输入目标说话人语音识别模型，通过模型中的ECAPA‑TDNN子模型从说话人参考音频中提取得到目标说话人的音色特征；通过模型中的Wav2Vec2.0子模型从待识别音频中提取得到音频通用声学特征；将音色特征和音频通用声学特征输入模型中的TS‑Conformer编码器进行特征筛选获得目标说话人声学特征；将目标说话人声学特征输入模型中的Transformer解码器生成目标说话人的预测文本。通过本发明的技术方案，能够有效的从待识别音频中分离出目标说话人的语音并输出对应文本。

技术关键词

声学特征说话人语音识别语音识别方法音频音色特征语音识别设备编码器语音识别系统文本解码器子模块注意力多尺度阶段可读存储介质训练样本集堆叠方式存储器处理器