文本引导的参数高效微调图像分割与计数模型及计数方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文本引导的参数高效微调图像分割与计数模型及计数方法
申请号:CN202510103092
申请日期:2025-01-22
公开号:CN120014396A
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了一种文本引导的参数高效微调图像分割与计数模型及计数方法,所述模型包括预训练的视觉语言大模型CLIP、最大连通区域和非极大值抑制模块以及预训练的分割模型SAM,其中:所述预训练的视觉语言大模型CLIP包括预训练的CLIP图像编码器以及标准文本编码器;所述预训练的分割模型SAM包括SAM编码器、提示编码器和掩码解码器,所述预训练的分割模型SAM还集成了轻量级适配器和CLIP特征融合与掩码生成模块,所述轻量级适配器用于调整SAM编码器,所述CLIP特征融合与掩码生成模块用于将CLIP图像编码器生成的图像特征FC迁移与融合至掩码解码器中,并指导掩码解码器生成高质量的分割掩码。本发明的模型具有强大的泛化性能和较高的计数准确性。
技术关键词
图像分割 图像编码器 文本编码器 计数方法 适配器 冗余特征 融合图像特征 解码器 注意力 微调方法 模块 令牌 生成图像特征 视觉 参数 多层感知机 对象