摘要
本发明涉及一种融合大模型的多模态行人指挥手势识别方法,属于自动驾驶领域。其包括:收集行人数据集,并进行数据集划分;采用预训练的行人检测模型从数据集中提取人体关键点;通过目标追踪网络对提取的人体关键点信息进行处理,得到动态的关键点轨迹信息;建立用于识别手势的多模态动作识别模型,其至少包括骨架编码器和文本编码器;多部分对比学习损失训练优化多模态手势识别模型,得到识别结果。将训练好的模型安装至自动驾驶汽车上,对行人手势进行区分,准确判断行人的意图。本发明方法采用多模态框架,识别精度高、识别速度快。