摘要
本发明公开了一种基于视觉大模型的铁路司机分心行为识别方法,属于铁路安全监控的技术领域;包括:构建数据集;基于数据集,采用LoRA方法对视觉大语言模型训练,得到微调视觉大语言模型;获取原始视频数据帧上的人体关键点信息,并生成骨架图;将骨架图输入微调视觉大语言模型中,输出图像的描述信息和对应的提示词。本发明融合轻量级姿态识别与视觉大语言模型分析的技术路线,采用人物关键点检测工具实现驾驶员姿态的捕捉;同时引入视觉大语言模型,通过构建驾驶场景知识图谱,实现操作行为与环境设备的关联分析;突破了传统监控系统的性能瓶颈,形成了可复制推广的技术模板,对提升铁路运输本质安全水平具有重要实践意义。