摘要
本发明涉及人工智能技术领域,涉及一种基于多模态大模型在人机协同环境中的意图理解方法。其包括以下具体步骤:视频分析与任务规划;采用关键帧提取和图像分割方法对视频进行预处理;构建任务的有向无环图,记忆可行的任务路径;实时意图判断;对多模态数据进行处理,将不同模态的数据截取图片按照固定方式拼接在一起;使用任务有向无环图筛选大模型一次判断时需要面对的子任务,并且给大模型梳理一些更可能发生的子任务序列;机械臂指令生成与反馈;根据任务有向无环图发出相应的指令、执行相应步骤,生成反馈数据。本发明通过结合视觉、听觉等多模态信息,实时感知环境和任务执行过程,成功实现了对复杂环境中人物行为的精准识别与任务推断。