一种基于视觉和语言模型的可形变物体操纵方法和装置

申请号：CN202411640054

申请日期：2024-11-18

公开号：CN119501933A

公开日期：2025-02-25

类型：发明专利

摘要

本发明涉及一种基于视觉和语言模型的可形变物体操纵方法和装置，方法包括：对可形变物体搭建操作环境，该操作环境包括用于采集可形变物体视觉数据的摄像头和用于操纵可形变物体的机械臂；在操作环境下对可形变物体进行视觉信息捕捉，得到图像数据，并记录对应的语言指令；通过语言模型根据语言指令，提取出关键动作和目标对象，生成操作指令；通过视觉处理模型根据图像数据提取出空间特征；将空间特征和操作指令融合，通过机器学习算法，生成最终的操作策略；将操作策略转化为机械臂的执行指令，以操纵可形变物体；与现有技术相比，本发明显著提高了机器人处理柔性物体的精度与效率，为智能制造、家居和服务等领域的应用提供了有效的技术支持。

技术关键词

视觉机器学习算法深度强化学习算法物体操纵装置策略指令机械臂图像数据监控机械关节平台自然语言对象样本表达式机器人家居