摘要
本发明公开了一种基于多模态检测的机器人寻物方法,包括以下步骤:S1、首先使用者通过与机器人人机语音交互,使得机器人获取需要寻找的物体属性;S2、人机交互后,机器人便开始寻找,获取时间同步的RGB和depth图像;S3、人机根据获取的RGB和depth图像使用多模态模型推理并获取推理结果;S4、机器人根据推理结果判断是否检测到需要寻找的物体,否,继续移动寻找获取时间同步的RGB和depth图像。本发明所述的一种基于多模态检测的机器人寻物方法,基于多模态检测的机器人寻物方法的用户操作简单,无需任何设置,通过语音交互的方式直接输入物品,寻找任何常见的物品,并可以指定需要寻找的物品的属性,比如颜色、形状等,无需APP输入物品类别。