一种基于视觉大模型的铁路司机分心行为识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉大模型的铁路司机分心行为识别方法
申请号:CN202510917781
申请日期:2025-07-03
公开号:CN120656148A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种基于视觉大模型的铁路司机分心行为识别方法,属于铁路安全监控的技术领域;包括:构建数据集;基于数据集,采用LoRA方法对视觉大语言模型训练,得到微调视觉大语言模型;获取原始视频数据帧上的人体关键点信息,并生成骨架图;将骨架图输入微调视觉大语言模型中,输出图像的描述信息和对应的提示词。本发明融合轻量级姿态识别与视觉大语言模型分析的技术路线,采用人物关键点检测工具实现驾驶员姿态的捕捉;同时引入视觉大语言模型,通过构建驾驶场景知识图谱,实现操作行为与环境设备的关联分析;突破了传统监控系统的性能瓶颈,形成了可复制推广的技术模板,对提升铁路运输本质安全水平具有重要实践意义。
技术关键词
大语言模型 识别方法 人体关键点 司机 矩阵 驾驶员面部特征 垂直俯仰角度 铁路安全监控 场景知识图谱 仪表板 图像视觉特征 坐标系 检测工具 视频 手部关键点
系统为您推荐了相关专利信息
智能工具柜系统 大语言模型 多模态 识别模块 数据处理模块
新能源场站 储能容量配置方法 短路 节点阻抗矩阵 容量优化模型
超声图像识别方法 深度卷积神经网络 检测网络模型 区域建议网络 超声图像识别系统
对话策略 大语言模型 文本 非易失性计算机可读存储介质 节点
决策系统 多模态数据采集 特征值识别 心率 可穿戴设备