摘要
本发明公开了一种人形机器人多模态指令解析系统,包括语音输入模块、视觉输入模块、声纹特征提取模块、物体识别与位姿估计模块、基于时空注意力机制的多模态对齐网络、场景语义树构建模块、指令节点映射模块、置信度评估模块和决策模块。系统通过时空注意力机制实现语音与视觉信息的精准对齐,结合场景语义树结构化表示环境信息,提升指令解析准确性。采用模糊指令回溯算法动态评估置信度,若低于阈值则启动多轮对话澄清,减少误操作。本发明融合多模态数据,优化历史交互学习能力,显著提高复杂指令的理解效率和交互鲁棒性,适用于家庭服务、物流仓储等场景,增强人机协作的智能化水平。