一种基于语义驱动Transformer模型的弱监督目标定位方法
申请号:CN202411674602
申请日期:2024-11-21
公开号:CN119648788A
公开日期:2025-03-18
类型:发明专利
摘要
本发明公开了一种基于语义驱动Transformer模型的弱监督目标定位方法,包括以下步骤:S1、对待检测的图片进行预处理,用于将待检测的图片转换为适合神经网络处理的格式;S2、将预处理后待检测的图片及其对应的图片级别的标签送入神经网络;所述神经网络包括Transformer主干网络、语义内核集成模块SKI和语义增强适配模块SBA;S3、神经网络对图片进行处理,在训练过程中输出待检测图片对应每一个类别的概率数值;S4、在测试过程中输出待检测图片预测的框的坐标、类别和得分;本发明通过使注意力图更加专注于前景区域,在弱监督环境下实现了更精确的、语义感知的目标定位,从而提高了模型的解释精度和相关性。
技术关键词
语义
图片
定位方法
集成模块
预训练模型
文本编码器
图像编码器
内核
标签
热力图
对象
网络
分类器
注意力
度函数
核心
样本