一种应用于智能机器人的多模态交互方法及交互系统

申请号：CN202511341194

申请日期：2025-09-19

公开号：CN120886265A

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种应用于智能机器人的多模态交互方法及交互系统，方法包括：采集场景图像并处理为三维点云与二维纹理特征；Gemini Robotics‑ER模型提取特征，视觉‑语言‑动作模型解析语言指令为机器可识别序列；融合特征生成交互决策矩阵，规划轨迹并计算动力学参数，驱动机器人执行动作并实时反馈。系统含多光谱视觉信息采集与预处理、Gemini Robotics‑ER模型处理、自然语言指令解析、视觉‑语言‑动作协同处理、轨迹规划与动力学计算、运动控制与反馈单元，各单元协同工作。该方法及系统通过多模态融合与闭环控制，提升交互精准性与实时性，满足工业场景需求。

技术关键词

语义依存树纹理特征多模态注意力关节运动控制单元工业机器人自然语言末端执行器词语智能机器人三维点云数据动态图像序列视觉采集装置行业术语矩阵指令逆运动学