语音对象识别方法、装置、计算机设备及存储介质

申请号：CN202510251872

申请日期：2025-03-04

公开号：CN120089129A

公开日期：2025-06-03

类型：发明专利

摘要

本申请属于人工智能技术领域，涉及一种语音对象识别方法、装置、计算机设备及存储介质，该方法包括：采用语音对象识别模型对待识别语音进行特征提取，得到语音特征向量；将语音特征向量与语音对象识别模型中的注册特征向量进行相减，得到目标差值向量，注册特征向量是指采用目标语音对象的单独语音对语音对象识别模型进行注册嵌入所生成的特征向量；为目标差值向量添加位置编码，采用编码器对位置编码后的目标差值向量进行处理，得到目标差值向量编码；采用多层感知机和预设的激活函数，根据目标差值向量编码计算验证分数，根据验证分数确定目标语音对象出现在待识别语音中的概率。本申请能够提升语音对象验证的准确性和鲁棒性。

技术关键词

语音对象识别方法对象识别模型多层感知机计算机可读指令特征提取网络编码器格式化元素计算机设备对象识别装置前馈神经网络可读存储介质人工智能技术注意力机制编码模块处理器