用于生成具身机器人可操作区域的多模态大模型训练方法

申请号：CN202510344276

申请日期：2025-03-21

公开号：CN120181127A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了用于生成具身机器人可操作区域的多模态大模型训练方法，涉及人工智能技术领域。该方法包括：利用所述多模态数据对多模态大模型进行预训练，得到预训练的多模态大模型；利用调用专家模型的指令数据对预训练的多模态大模型进行微调，得到训练好的多模态大模型，以便利用输入的具身机器人的多模态数据，输出具身机器人的可操作关键物体部位和可操作关键物体部位之间的语义关系，或/和通过调用专家模型输出可视化的可操作关键点和可操作关键点的位置坐标。提升了具身机器人在复杂环境中的操作能力和灵活性；增强了具身机器人对多模态信息的处理能力，改善了环境感知的准确性；提高了对物体分割和定位的精度，减少了操作失误。

技术关键词

模型训练方法多模态关键点物体图像定位模型指令语义机器人本体图像分割模型模型训练装置关系人工智能技术数据获取模块处理器坐标视觉存储器传感器