摘要
本发明涉及一种基于改进视觉大模型的城市异常事件识别方法,其包括如下步骤:构建包含N个图像以及与每一图像对应的文本描述的图像数据集;将Grounding DINO模型的图像主干替换为DVT框架,采用语义增强语言模型作为Grounding DINO模型的文本主干,以及在Grounding DINO的跨模态融合模块中引入动态注意力机制;对改进的Grounding DINO模型进行参数调节;以及,利用改进的Grounding DINO模型输出城市异常事件识别结果。本发明通过优化Grounding DINO模型的主干网络和在跨模态融合模块中引入动态注意力机制,使得模型能够更准确地识别各种城市异常事件。