摘要
本发明提供了一种AI耳机的多模态语音交互方法、电子设备和存储介质,包括:采集用户的语音信号,基于隐马尔可夫模型,结合语音信号的概率分布特性识别语音信号中的起始与终止点,并截取出可用的语音段;对所述语音段进行语音识别,得到对应的文本信息;基于AI耳机内置的运动传感器,采集用户头部的运动数据;将所述文本信息与所述运动数据输入融合模型,融合得到交互意图特征;对交互意图特征进行解析,得到所述用户的交互意图;基于所述交互意图,驱动AI耳机执行对应的功能。在本发明中,可以精准识别语音信号中的起始与终止点;同时,克服了单模态交互方式无法精准解析用户需求的缺陷。