一种终端设备及语音应答方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种终端设备及语音应答方法
申请号:CN202411049364
申请日期:2024-07-31
公开号:CN118782037A
公开日期:2024-10-15
类型:发明专利
摘要
本申请一些实施例提供一种终端设备及语音应答方法,所述方法可以响应于语音交互指令,获取语音交互指令对应的源音频数据。再根据源音频数据的音频单元生成特征向量,并基于音频嵌入算法计算特征向量的语音向量。拼接特征向量和语义向量,以生成第一融合向量。再根据第一融合向量预测第二融合向量,并按照第二融合向量生成应答音频数据,以及控制音频输出装置播放应答音频数据。其中,应答音频数据基于端到端音频输出模型生成,端到端音频输出模型的输入为第二融合向量。所述方法通过端到端的音频输入及输出,根据源音频数据中多维度特征生成相应的应答音频数据,可减少源音频数据的信息丢失,提高应答音频数据中音频特征的可靠性。
技术关键词
特征提取模型 音频编码 语音应答方法 生成特征向量 语义向量 序列 终端设备 音频单元 数据 基准 频谱特征 控制音频输出装置 注意力机制 控制器 执行傅里叶变换 标记 切片