摘要
本发明公开了一种多层级图像特征提取的场景理解方法及系统,所述场景理解方法包括:获取输入图像数据,并进行数据预处理,获得预处理图像数据;基于DFFormer提取预处理图像数据的细粒度局部场景特征,获得局部场景特征;基于MAE增强的全局特征提取,获得全局场景特征;将所述局部场景特征和所述全局场景特征融合,获得融合特征;根据所述融合特征进行分类输出。解决现有场景理解方法在提取细粒度局部特征和全局上下文信息方面的局限性。通过结合DFFormer的动态滤波能力与MAE增强的ViT的全局特征表征能力,实现对图像特征的高效提取和融合,为场景理解任务提供更准确的输入特征。