基于多模态信息的目标操控方法、装置、设备及介质

申请号：CN202510918108

申请日期：2025-07-03

公开号：CN120816476A

公开日期：2025-10-21

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于机械臂抓取、金融科技及医疗健康等业务场景中，公开了一种基于多模态信息的目标操控方法、装置、设备及介质，包括：获取表述操作意图的语言指令并采集目标物体所在环境的视觉信息；通过语言处理模块生成语义表示，视觉处理模块生成视觉特征；将视觉特征与语义表示输入动作生成模块，生成动作序列；基于动作序列确定关节角度序列和关节角度值，控制机械臂执行抓取操作。本发明通过融合语言和视觉信息，生成精准的抓取动作序列，并结合关节角度序列与精确的关节角度值控制机械臂的运动，实现平滑轨迹运动与精准抓取。提高了在复杂环境中的适应能力和工业级抓取精度，有效提升了生产效率与抓取成功率。

技术关键词

多模态信息操控方法视觉特征序列模块生成动作点云空间物体关节控制器语义机械臂上下文特征融合特征操控装置意图特征金字塔网络纹理特征坐标