一种基于改进视觉大模型的城市异常事件识别方法

申请号：CN202511026927

申请日期：2025-07-24

公开号：CN120876980A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及一种基于改进视觉大模型的城市异常事件识别方法，其包括如下步骤：构建包含N个图像以及与每一图像对应的文本描述的图像数据集；将Grounding DINO模型的图像主干替换为DVT框架，采用语义增强语言模型作为Grounding DINO模型的文本主干，以及在Grounding DINO的跨模态融合模块中引入动态注意力机制；对改进的Grounding DINO模型进行参数调节；以及，利用改进的Grounding DINO模型输出城市异常事件识别结果。本发明通过优化Grounding DINO模型的主干网络和在跨模态融合模块中引入动态注意力机制，使得模型能够更准确地识别各种城市异常事件。

技术关键词

异常事件识别方法样本图像文本参数交叉注意力机制数据分布表达式标签网络分类器语义随机噪声动态视觉优化器框架