摘要
本申请提供一种具身智能数据处理方法以及设备,涉及具身智能领域,该具身智能数据处理方法包括:获取具身智能体的任务参考视频;对任务参考视频进行多模态特征提取,得到任务参考视频的视觉语义特征和任务执行对象的身体姿态特征;对视觉语义特征和身体姿态特征进行融合,得到融合特征;根据融合特征,对任务参考视频进行任务识别和对任务执行对象进行行为意图识别,得到识别结果;根据识别结果,确定任务参考视频的有效视频片段,有效视频片段用于具身智能体执行任务过程中的操作的验证和/或参考。本申请通过多模态技术实现具身智能数据的自动化处理,提高了数据处理效率和准确性,节省了人力成本。