一种终端设备及语音应答方法

申请号：CN202411049364

申请日期：2024-07-31

公开号：CN118782037A

公开日期：2024-10-15

类型：发明专利

摘要

本申请一些实施例提供一种终端设备及语音应答方法，所述方法可以响应于语音交互指令，获取语音交互指令对应的源音频数据。再根据源音频数据的音频单元生成特征向量，并基于音频嵌入算法计算特征向量的语音向量。拼接特征向量和语义向量，以生成第一融合向量。再根据第一融合向量预测第二融合向量，并按照第二融合向量生成应答音频数据，以及控制音频输出装置播放应答音频数据。其中，应答音频数据基于端到端音频输出模型生成，端到端音频输出模型的输入为第二融合向量。所述方法通过端到端的音频输入及输出，根据源音频数据中多维度特征生成相应的应答音频数据，可减少源音频数据的信息丢失，提高应答音频数据中音频特征的可靠性。

技术关键词

特征提取模型音频编码语音应答方法生成特征向量语义向量序列终端设备音频单元数据基准频谱特征控制音频输出装置注意力机制控制器执行傅里叶变换标记切片