AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

6801点击 2025-10-21 15:30

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。

AGILE 提出一种全新的自监督学习范式，将「智能体交互」迁移至多模态大模型的强化学习训练中，通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程，让模型像人一样边观察、边推理、边学习，从而显著提升模型视觉感知与逻辑推理能力。

Title：Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

Paper：https://arxiv.org/pdf/2510.01304

Project Page：https://yuzeng0-0.github.io/AGILE/

Dataset：https://huggingface.co/datasets/YuZeng260/AGILE

Code：https://github.com/yuzeng0-0/AGILE

作者单位：中科大、上海 AI Lab、华东师大、港中文

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

图 1：AGILE 主要工作框架

方法核心：

交互式智能体 + 拼图代理任务

为了克服数据瓶颈与可扩展性问题，研究者们选择「拼图」作为一种高效的兼具感知和推理的代理任务，提出 AGILE。将拼图过程建模为「可控、可验证」的交互式形式：

模型在每一步生成 Python 动作代码（Swap、Observe、Crop、Zoom）；

环境执行代码、返回视觉反馈；

模型根据环境反馈继续规划调整拼图，该循环重复至拼图完成。

这一闭环交互形成了「观察–交互–反馈–学习」的智能体训练范式，使 VLMs 能在自监督方式下持续提升感知和推理能力。

AGILE 的完整流程分为两个阶段：

Cold-Start 阶段，使用 Gemini 2.5 Pro 生成 1.6K 条高质量专家拼图交互轨迹，教会模型如何正确生成动作代码与交互逻辑，解决初期模型「不会动手」的问题；

Reinforcement Learning 阶段，在 15.6K 张图像上训练拼图任务，采用 GRPO 算法，通过准确率、格式规范与交互轮数三重奖励信号优化策略。

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

图 2：模型拼图过程中激发出来的感知和推理行为

实验

研究者们进行了大量实验，验证了 AGILE 的有效性，并得到了多条富有启发意义的结论：

研究者们设计了系统的拼图评估数据集，涵盖不同难度（2×2、3×3）与不同初始正确块数（L0–L7）。模型性能以两种指标衡量：Acc，所有块完全放对的比例；Score，正确拼块数占总拼块数的比例。在最简单的 2×2 任务中，AGILE 使准确率从 9.5% 提升至 82.8%，比 Gemini 2.5 Pro 高出 36.4 个百分点。在更具挑战性的 3×3 拼图中，也从 0.4% 提升至 20.8%，标志着模型感知和推理能力大幅跃升。

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

表 1：拼图 Acc 结果。LN 表示难度级别，N 表示初始正确拼图块数。N 值越小，拼图越乱，难度越高。最佳结果以粗体显示，次佳结果以下划线显示。

通用能力即泛化性评测：经过拼图训练，模型在 9 项通用视觉任务中（涵盖真实世界场景、高分辨率场景、细粒度感知、幻觉和多模态推理）平均提升 3.1%，展现出强大的泛化能力。进一步验证了拼图任务作为代理任务对于通用视觉能力的泛化价值。

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

表 2：不同模型在 9 个基准测试上的性能比较。缩写：MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL)，Avg. 表示所有 9 个基准测试的平均性能。∆ 表示强化学习相对于基础模型 Qwen2.5-VL-7B 获得的相对性能提升。最佳结果以粗体突出显示，次佳结果以下划线标出。

Scaling 实验：数据规模带来的持续增益。研究者们进一步探究了拼图数据规模对性能的影响。当训练数据从 0 扩展至 16K 时：拼图任务准确率从 22.0% → 82.8%；HRBench4K 准确率提升 +2.0%；RealWorldQA 提升 +1.8%。表明 AGILE 的训练在数据量扩增下持续有效。由于拼图环境可自动生成，AGILE 的数据扩展几乎零成本、无限扩容，为多模态 RL 提供了可持续的自监督范式。

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

图 3：（左图）训练数据规模的影响。左侧 y 轴表示 HRBench4K 和 RealWorldQA 的准确率，右侧 y 轴表示拼图任务的准确率。（右图）与常规 QA 数据的比较，在两种实验设置中，样本总数始终保持在 20K。

与常规 QA 数据的对比实验：研究者们替换 20K 常规 QA 数据中的其中 10K 为拼图数据，发现模型可以表现出更好的性能。这说明拼图任务提供了更强的结构感知与监督信号。这一发现凸显了拼图任务在缓解多模态强化学习数据稀缺方面的潜力，并为推进多模态模型开发开辟了一个充满前景的新方向。

意义与未来

AGILE = 交互式拼图代理 + 自监督 RL，在无需额外人工标注的前提下，持续提升 VLMs 的感知与推理能力。它证明了「交互式拼图代理任务」作为突破数据瓶颈、强化 VLMs 的可行性和自监督强化学习范式的潜力。

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , AGILE , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md