一种基于多模态的AI数字人智能交互方法、系统及设备

申请号：CN202510621117

申请日期：2025-05-14

公开号：CN120540557A

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及计算机视觉和人机交互技术领域，公开了一种基于多模态的AI数字人智能交互方法、系统及设备，方法包括：检测到人脸时预唤醒数字人，进一步基于识别到的预设语音信息或预设手势信息彻底唤醒数字人；获取在交互过程中用户的语音和视频信息并生成关键词提取结果、手势识别结果和情绪状态标签，利用预先构建的知识库检索相关信息并结合大语言生成模型模块生成回答文本，并输入预设语音合成模型中生成有情感的语音输出，基于用户当前的情绪状态标签驱动数字人动画有感情的输出。本发明能够创建理解用户情绪、生成个性化回答、提供情感丰富语音以及展示自然表情和动作的数字人，能够更好地与用户互动，提供更加人性化和有效的服务。

技术关键词

智能交互方法生成关键词标签文本手势特征动画多模态情感识别视频传感器获取用户场景知识图谱语音特征智能交互系统肤色掩膜计算机注意力机制