摘要
本申请公开了一种对比语义查询的多模态装配动作识别方法,涉及人机协作装配技术领域,该方法包括:通过在装配工作台布设视觉传感器获取操作员动作视频,经随机帧采样得到采样帧序列、人体姿态估计得到骨骼序列,输入装配动作识别模型完成识别。该模型含图像编码、骨骼编码、特征融合、文本编码及语义对比模块,分别提取图像与骨骼特征、融合特征、编码预设类别文本描述、对比动作特征与类别文本特征并输出相似度最高结果,训练时采用对比损失函数。此方法融合多模态信息,解决单一模态局限与多模态语义割裂问题,充分利用类别文本语义,提升细粒度动作识别精度,降低过拟合风险,增强模型在动态工业场景的泛化与任务迁移能力。