摘要
本发明公开了一种基于多模态传感器的可控数字人实时交互系统,涉及数字人技术领域,包括多模态传感器数据采集模块,捕捉用户交互视频,采集用户的交互语音信号,采集用户温度和用户与设备的距离;多模态特征提取模块,包括静态特征提取单元和动态特征提取单元;多模态融合模块,用于分析来源于多模态特征提取模块的可信赖程度,判断每个信息来源在当前任务中的重要性,综合考量,动态调整权重分配,融合多模态特征数据;意图理解模块,基于融合后的特征和上下文,利用大语言模型LLM理解用户的交互意图;数字人交互输出模块,基于用户的交互意图生成开放域文本回复,最终实现数字人多模态融合交互输出。