摘要
本发明涉及多模态交互分析领域,尤其涉及一种数字人智能体的多模态交互方法及系统。该方法包括以下步骤:基于智能体获取交互用户的实时面部图像及语音信号输入流;基于所述实时面部图像进行实时微表情识别及深度情绪解析,得到用户实时情绪特征;对用户实时情绪特征时序演变分析,并进行全息用户情绪深度挖掘,构建用户情绪全息特征图谱;对语音信号输入流进行自适应声学增益处理,并基于用户情绪全息特征图谱进行语音‑情绪关联分析,生成语音‑情绪联动映射谱;基于用户情绪全息特征图谱及实时面部图像进行眼球注视点迁移追踪,生成用户交互深度意愿信号。本发明通过实时深层语义理解与情感感知能力,提高了智能体交互智能性及响应准确性。