摘要
本发明公开了一种基于多模态大模型的课堂行为检测方法,具体包括:摄像头拍摄的视频文件作为输入数据,所述视频文件可以直接输入GroundingDINO进行目标检测,也可以先进行人脸识别,采用人脸识别InsightFace中的Sub‑Center ArcFace模型,识别到指定对象的人脸后可将人脸区域图像或目标框作为提示信息给到TrackAnything模型进行视频目标追踪,即在视频的每一帧中找到该对象的目标区域,接着将该区域单独送入GroundingDINO进行目标检测,判断是否是待检测行为目标。本发明可以得到每个人的行为检测结果,进而进行个体或群体的行为统计分析。