一种对比语义查询的多模态装配动作识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种对比语义查询的多模态装配动作识别方法
申请号:CN202511527464
申请日期:2025-10-24
公开号:CN120997911A
公开日期:2025-11-21
类型:发明专利
摘要
本申请公开了一种对比语义查询的多模态装配动作识别方法,涉及人机协作装配技术领域,该方法包括:通过在装配工作台布设视觉传感器获取操作员动作视频,经随机帧采样得到采样帧序列、人体姿态估计得到骨骼序列,输入装配动作识别模型完成识别。该模型含图像编码、骨骼编码、特征融合、文本编码及语义对比模块,分别提取图像与骨骼特征、融合特征、编码预设类别文本描述、对比动作特征与类别文本特征并输出相似度最高结果,训练时采用对比损失函数。此方法融合多模态信息,解决单一模态局限与多模态语义割裂问题,充分利用类别文本语义,提升细粒度动作识别精度,降低过拟合风险,增强模型在动态工业场景的泛化与任务迁移能力。
技术关键词
动作识别方法 动作识别模型 文本 编码模块 语义 人体骨骼 人体姿态估计 骨骼特征 视频 动作特征 数据 序列 图像编码 装配工作台 注意力 样本 融合多模态信息 视觉传感器 适配器 前馈神经网络