一种基于视觉和语言模型的可形变物体操纵方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉和语言模型的可形变物体操纵方法和装置
申请号:CN202411640054
申请日期:2024-11-18
公开号:CN119501933A
公开日期:2025-02-25
类型:发明专利
摘要
本发明涉及一种基于视觉和语言模型的可形变物体操纵方法和装置,方法包括:对可形变物体搭建操作环境,该操作环境包括用于采集可形变物体视觉数据的摄像头和用于操纵可形变物体的机械臂;在操作环境下对可形变物体进行视觉信息捕捉,得到图像数据,并记录对应的语言指令;通过语言模型根据语言指令,提取出关键动作和目标对象,生成操作指令;通过视觉处理模型根据图像数据提取出空间特征;将空间特征和操作指令融合,通过机器学习算法,生成最终的操作策略;将操作策略转化为机械臂的执行指令,以操纵可形变物体;与现有技术相比,本发明显著提高了机器人处理柔性物体的精度与效率,为智能制造、家居和服务等领域的应用提供了有效的技术支持。
技术关键词
视觉 机器学习算法 深度强化学习算法 物体操纵装置 策略 指令 机械臂 图像 数据 监控机械 关节 平台 自然语言 对象 样本 表达式 机器人 家居