一种对比语义查询的多模态装配动作识别方法

申请号：CN202511527464

申请日期：2025-10-24

公开号：CN120997911A

公开日期：2025-11-21

类型：发明专利

摘要

本申请公开了一种对比语义查询的多模态装配动作识别方法，涉及人机协作装配技术领域，该方法包括：通过在装配工作台布设视觉传感器获取操作员动作视频，经随机帧采样得到采样帧序列、人体姿态估计得到骨骼序列，输入装配动作识别模型完成识别。该模型含图像编码、骨骼编码、特征融合、文本编码及语义对比模块，分别提取图像与骨骼特征、融合特征、编码预设类别文本描述、对比动作特征与类别文本特征并输出相似度最高结果，训练时采用对比损失函数。此方法融合多模态信息，解决单一模态局限与多模态语义割裂问题，充分利用类别文本语义，提升细粒度动作识别精度，降低过拟合风险，增强模型在动态工业场景的泛化与任务迁移能力。

技术关键词

动作识别方法动作识别模型文本编码模块语义人体骨骼人体姿态估计骨骼特征视频动作特征数据序列图像编码装配工作台注意力样本融合多模态信息视觉传感器适配器前馈神经网络