摘要
本发明公开一种基于多模态图像的拥挤检测方法及装置,涉及目标检测技术领域,本方法通过采集真实地铁场景内摄像头录制的视频,获得初始视频数据,并通过处理构建图像库;通过对设定拥挤程度的图像进行文本描述,并输入文本库,完成文本信息初始化;通过设定卷积神经网络对所述图像库中的图像进行特征提取,获得图像特征向量;通过设定文本编码器对所述文本库中的所述文本信息进行特征提取,获得文本特征向量;通过CLIP多模态模型生成多模态特征表示;设置基础判断参数;基于所述基础判断参数,通过多模态拥挤检测模型对所述多模态特征表示进行检测处理,输出检测结果。本发明能够分区域,快速、准确的对拥挤度识别和检测。