一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质
申请号:CN202510624855
申请日期:2025-05-15
公开号:CN120563997A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质,包括:对预训练模型进行剪枝,得到稀疏图像编码器的骨干网络;引入掩码感知策略,将掩码提议作为注意力偏置添加到骨干网络的多头注意力模块;评估稀疏图像编码器的权重质量,通过分析在权重谱中的重尾行为确定训练不足的层,仅更新训练不足的层,保持其它层冻结;将图像输入到稀疏图像编码器和SAM图像编码器,得到两种图像特征后进行融合,得到融合图像特征;利用文本编码器对待识别的类别名称进行特征表示,获取文本特征;计算文本特征和融合图像特征的余弦相似度得到分类预测;结合掩码提议获得最终图像识别结果。利用本发明,可以减少掩码分类误报且降低计算成本。
技术关键词
图像识别方法
图像编码器
融合图像特征
注意力
文本编码器
图像识别系统
网络
预训练模型
策略
处理器
可读存储介质
存储器
程序
语义
蒸馏
模块
计算机