一种多层级图像特征提取的场景理解方法及系统

申请号：CN202510226420

申请日期：2025-02-27

公开号：CN120070914A

公开日期：2025-05-30

类型：发明专利

摘要

本发明公开了一种多层级图像特征提取的场景理解方法及系统，所述场景理解方法包括：获取输入图像数据，并进行数据预处理，获得预处理图像数据；基于DFFormer提取预处理图像数据的细粒度局部场景特征，获得局部场景特征；基于MAE增强的全局特征提取，获得全局场景特征；将所述局部场景特征和所述全局场景特征融合，获得融合特征；根据所述融合特征进行分类输出。解决现有场景理解方法在提取细粒度局部特征和全局上下文信息方面的局限性。通过结合DFFormer的动态滤波能力与MAE增强的ViT的全局特征表征能力，实现对图像特征的高效提取和融合，为场景理解任务提供更准确的输入特征。

技术关键词

场景理解方法场景特征预处理图像数据图像特征提取全局特征提取融合特征层级理解系统图像数据预处理模拟现实场景注意力局部特征提取语义融合场景多尺度特征依赖特征滤波