一种基于大语言模型的开放世界目标检测的增量学习方法
申请号:CN202510817132
申请日期:2025-06-18
公开号:CN120747707B
公开日期:2026-01-02
类型:发明专利
摘要
本申请提供一种基于大语言模型的开放世界目标检测的增量学习方法,包括:获取由标注了第一类别的目标的第一RGB图像样本训练得到第一开放世界目标检测模型;建立包括多个第二RGB图像样本的训练集,每个第二RGB图像样本标注了第一类别和第二类别的目标;利用大语言模型对第一类别和第二类别进行处理,生成每个类别的文本形式的属性特征;利用第一开放世界目标检测模型对第二RGB图像样本和每个类别的文本形式的属性特征进行处理,得到目标框预测值、目标类别预测值以及未知类别目标预测值,由此确定总损失值;基于总损失值,更新第一开放世界目标检测模型的参数,由此得到第二开放世界目标检测模型。本申请增强了模型在新场景中的泛化能力和适应性。
技术关键词
大语言模型
视觉特征提取
增量学习方法
上下文特征
文本
样本
融合视觉特征
图像
矩阵
编解码器
训练集
参数
拼接单元
分支
模块
可读存储介质
处理单元
学习装置
计算机