摘要
本发明公开了一种应用于智能机器人的多模态交互方法及交互系统,方法包括:采集场景图像并处理为三维点云与二维纹理特征;Gemini Robotics‑ER模型提取特征,视觉‑语言‑动作模型解析语言指令为机器可识别序列;融合特征生成交互决策矩阵,规划轨迹并计算动力学参数,驱动机器人执行动作并实时反馈。系统含多光谱视觉信息采集与预处理、Gemini Robotics‑ER模型处理、自然语言指令解析、视觉‑语言‑动作协同处理、轨迹规划与动力学计算、运动控制与反馈单元,各单元协同工作。该方法及系统通过多模态融合与闭环控制,提升交互精准性与实时性,满足工业场景需求。