摘要
本申请一些实施例提供一种终端设备及语音应答方法,所述方法可以响应于语音交互指令,获取语音交互指令对应的源音频数据。再根据源音频数据的音频单元生成特征向量,并基于音频嵌入算法计算特征向量的语音向量。拼接特征向量和语义向量,以生成第一融合向量。再根据第一融合向量预测第二融合向量,并按照第二融合向量生成应答音频数据,以及控制音频输出装置播放应答音频数据。其中,应答音频数据基于端到端音频输出模型生成,端到端音频输出模型的输入为第二融合向量。所述方法通过端到端的音频输入及输出,根据源音频数据中多维度特征生成相应的应答音频数据,可减少源音频数据的信息丢失,提高应答音频数据中音频特征的可靠性。