一种视觉语言模型目标检测能力增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种视觉语言模型目标检测能力增强方法
申请号:CN202511097208
申请日期:2025-08-06
公开号:CN120976676A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种视觉语言模型目标检测能力增强方法,包括:首先,构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集;其次,在GRPO强化学习框架下,通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出,该函数包含:确保输出遵循预设思考和答案结构的格式奖励,以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合,有效抑制了冗余预测。最后,根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力,并提高推理效率。
技术关键词
视觉 格式 策略 语义标签 强化学习框架 答案 更新网络参数 超参数 对象交互 图像 样本 关系 比率 文本 精度 数据
系统为您推荐了相关专利信息
视觉特征 融合特征 序列 接触特征 分析方法
建筑物检测方法 金字塔池化模块 上采样 编码器 多任务学习策略
热网络模型 数据分析方法 供热系统 节点 策略
医疗检验单 项目 文本 坐标 图像
相机标定参数 视觉图像处理设备 生成三维点云 像素点 掩模