摘要
本公开的实施例提供了多模态语音唤醒方法、装置及电子设备。应用于智能语音技术领域,所述方法包括:通过获取语音、手势和口型多模态输入数据并添加时间戳,为后续精确处理提供基础,避免了单一语音模态在复杂环境下的高误判率,使唤醒准确率得到大幅提升,当存在模态冲突时,通过识别各模态输入数据的置信度,并结合历史数据进行决策,降低了因单次模态识别误差导致错误唤醒操作的可能性,提高了唤醒决策的可靠性,若不存在模态冲突,根据多模态输入数据准确确定目标设备的唤醒场景,通过这种对不同唤醒场景的精准识别和适应性处理,使目标设备在各种复杂环境下都能稳定、准确地被唤醒,有效增强了目标设备的环境适应能力。