融合大模型的多模态行人指挥手势识别方法

申请号：CN202411492294

申请日期：2024-10-24

公开号：CN119360447B

公开日期：2025-10-21

类型：发明专利

摘要

本发明涉及一种融合大模型的多模态行人指挥手势识别方法，属于自动驾驶领域。其包括：收集行人数据集，并进行数据集划分；采用预训练的行人检测模型从数据集中提取人体关键点；通过目标追踪网络对提取的人体关键点信息进行处理，得到动态的关键点轨迹信息；建立用于识别手势的多模态动作识别模型，其至少包括骨架编码器和文本编码器；多部分对比学习损失训练优化多模态手势识别模型，得到识别结果。将训练好的模型安装至自动驾驶汽车上，对行人手势进行区分，准确判断行人的意图。本发明方法采用多模态框架，识别精度高、识别速度快。

技术关键词

手势识别方法文本编码器人体关键点多模态手势行人检测模型分支关节骨架特征动作识别模型标记轨迹行人手势识别卷积模块解码器双编码器 Softmax函数数据