一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质
申请号:CN202510624855
申请日期:2025-05-15
公开号:CN120563997A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种掩码感知的高效开放词汇图像识别方法、系统及可读存储介质,包括:对预训练模型进行剪枝,得到稀疏图像编码器的骨干网络;引入掩码感知策略,将掩码提议作为注意力偏置添加到骨干网络的多头注意力模块;评估稀疏图像编码器的权重质量,通过分析在权重谱中的重尾行为确定训练不足的层,仅更新训练不足的层,保持其它层冻结;将图像输入到稀疏图像编码器和SAM图像编码器,得到两种图像特征后进行融合,得到融合图像特征;利用文本编码器对待识别的类别名称进行特征表示,获取文本特征;计算文本特征和融合图像特征的余弦相似度得到分类预测;结合掩码提议获得最终图像识别结果。利用本发明,可以减少掩码分类误报且降低计算成本。
技术关键词
图像识别方法 图像编码器 融合图像特征 注意力 文本编码器 图像识别系统 网络 预训练模型 策略 处理器 可读存储介质 存储器 程序 语义 蒸馏 模块 计算机