摘要
本申请涉及信息交互技术领域。基于多模态交互的酒店智能语音对话方法,包括:获取用户在酒店语音对话中的多模态数据,其中,所述多模态数据包括语音数据、面部表情视频数据和文本交互数据;根据所述语音数据获取用户声学特征,并根据所述用户声学特征获取语音情感特征;根据所述面部表情视频数据获取用户视觉特征,并根据所述用户视觉特征获取视觉情感特征;根据所述文本交互数据获取用户文本特征,并根据所述用户文本特征获取文本情感特征。本发明通过融合语音、面部表情视频和文本交互数据,提升了用户情感状态与需求意图的识别精度,解决了传统单模态系统信息缺失导致的误判问题。