基于多模态交互的酒店智能语音对话方法

申请号：CN202511036676

申请日期：2025-07-28

公开号：CN120544573A

公开日期：2025-08-26

类型：发明专利

摘要

本申请涉及信息交互技术领域。基于多模态交互的酒店智能语音对话方法，包括：获取用户在酒店语音对话中的多模态数据，其中，所述多模态数据包括语音数据、面部表情视频数据和文本交互数据；根据所述语音数据获取用户声学特征，并根据所述用户声学特征获取语音情感特征；根据所述面部表情视频数据获取用户视觉特征，并根据所述用户视觉特征获取视觉情感特征；根据所述文本交互数据获取用户文本特征，并根据所述用户文本特征获取文本情感特征。本发明通过融合语音、面部表情视频和文本交互数据，提升了用户情感状态与需求意图的识别精度，解决了传统单模态系统信息缺失导致的误判问题。

技术关键词

情感特征智能语音对话多模态交互面部关键点定位文本声学特征多模态特征梅尔频率倒谱系数数据特征提取模块意图视觉特征信息面部表情特征短时傅里叶变换视频