摘要
本发明公开一种面向人机协作的场景感知与任务推理系统,包含以下模块:多模型融合的语义分割模块、基于主成分分析的特征增强模块;基于大语言模型推理人机协作任务模块;多模型融合的语义分割模块是指机器人通过相机以SAM、CLIP为视觉基础模型,获取人类意图;基于主成分分析的特征增强模块将图像编码为视图无关的特征,把样本的特征压缩到差异大的维度,用于实现对图像进行分类;基于大语言模型推理人机协作任务模块用于基于当前环境描述以及用户的多模态抽象指令输入,逐步生成机器人代码。本申请提供的方案通过结合视觉基础模型的特点,设计多模型融合的场景感知方法,实现无需训练的语义感知,满足新场景和新任务快速感知的要求。