教AI学会使用工具,带图推理就能变得更强?!
港中文、微软联合8家单位推出OpenThinkIMG开源框架,这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。
众所周知,我们人类在解决问题时,常常会借助视觉工具:解几何题时画辅助线,分析图表时用荧光笔标记。
这些“动手”操作,极大地增强了我们的认知和推理能力。
因此,一旦将同款“动手操作”能力赋予AI,其推理能力也将大大提升。
不过问题是,虽然现在已经有很多强大的视觉工具(分割、检测、OCR等),但让AI真正学会如何以及何时智能地使用这些工具,却面临巨大挑战:
而OpenThinkIMG框架的出现正是为了解决上述问题,与此同时,团队还公开了其核心的自适应工具使用训练技术V-ToolRL。
下面具体来看。
如框架图所示,OpenThinkIMG集工具部署、数据生成、智能体训练于一体。
其核心特性如下:
第一,模块化视觉工具部署 (Tool Deployment)。
简单来说,它提供标准化的视觉工具接口,
无论是已有的成熟工具(如GroundingDINO, SAM, OCR等),还是你自己的新工具,都能轻松接入OpenThinkIMG的“工具箱”。
并且每个工具都可以作为独立服务部署,互不干扰,方便管理和按需扩展。AI模型可以通过框架内的“工具控制器”按需调用。
第二,高效的智能体训练框架 (Training Framework)。
它不仅支持传统的监督微调 (SFT),更集成了团队创新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。
这一算法让AI通过强化学习,在与视觉工具的真实交互中,从错误中学习,自主探索和掌握最佳的工具使用策略。
具体而言,需要先通过SFT进行“理论学习”(冷启动),然后通过V-ToolRL进行“上路实操”,根据任务完成情况获得奖励或惩罚,不断优化策略。
第三,支持高质量训练数据生成 (Scalable Trajectory Generation)。
为了给V-ToolRL提供优质的初始“教材”,OpenThinkIMG内置了一套团队提出的高效、可扩展的视觉工具使用轨迹生成方法。
具体过程分为三步:
△高质量视觉轨迹数据构建流程
通过OpenThinkIMG的这些核心能力,研究者和开发者可以更专注于模型算法的创新,而不必在工具部署和数据准备上耗费过多精力。
团队在具有挑战性的图表推理任务上,使用OpenThinkIMG框架训练了基于V-ToolRL的智能体。
如图所示,V-ToolRL在ChartGemma测试集上的性能表现(基于OpenThinkIMG训练)如下:
1、大幅超越SFT:基于一个2B的Qwen2-VL,经过V-ToolRL训练后,准确率比单纯SFT提升了28.83个百分点;
2、碾压同类开源模型:V-ToolRL的表现平均超过了如Taco、CogCom等基于监督学习的工具使用基线12.7个百分点,而且团队的模型参数量更小;
3、媲美顶尖模型:V-ToolRL的表现超过GPT-4.1,同时和Gemini达到持平的效果。
结果充分证明了OpenThinkIMG框架的强大支撑能力,以及V-ToolRL在学习自适应工具调用策略上的优越性。
那么,V-ToolRL是如何在OpenThinkIMG中学习的呢?
通过OpenThinkIMG的训练环境,团队观察到V-ToolRL智能体展现出以下学习特性:(a) 工具调用更高效 (b) 推理更详尽 (c) V-ToolRL 学习更快更好。
具体而言,随着训练的进行,模型平均调用的工具次数显著下降,说明它学会了“好钢用在刀刃上”,只在必要时才使用工具。
而且模型生成的答案(包括思考过程)长度增加了,表明它能够进行更详细、更深入的推理。
最后,V-ToolRL(集成了视觉工具的反馈)相比纯文本的强化学习,学习速度更快,最终效果也更好,证明了“眼见为实”的重要性。
下图展示了V-ToolRL在具体问题上的表现。面对复杂的图表,V-ToolRL能够:
△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)
这些案例生动地展示了V-ToolRL如何通过结构化的工具调用,实现比直接视觉解读更准确、更可解释的推理。
小结一下,OpenThinkIMG框架的核心贡献在于:
1、一个开放、强大的工具部署与训练平台:解决了工具集成和智能体训练的难题。
2、内置高效数据生成方法:为模型训练提供高质量“燃料”。
3、V-ToolRL作为核心训练算法:使AI能够真正学会自主、智能地使用视觉工具。
团队表示,OpenThinkIMG将为开发能够真正“用图像思考”的下一代AI智能体提供坚实的基础设施。
未来,他们将继续扩展OpenThinkIMG支持的工具和模型,探索更复杂的任务场景,并期待与社区共同推动这一激动人心的领域向前发展。
论文第一作者苏肇辰为苏州大学三年级研究生,香港科技大学准博士生,在NeurIPS、ACL等国际顶级会议上发表多篇研究成果。项目通讯作者为港中文成宇教授。
技术报告:
https://arxiv.org/pdf/2505.08617
GitHub仓库:
https://github.com/zhaochen0110/OpenThinkIMG
数据集和模型:
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9
文章来自于微信公众号 “量子位”,作者 :OpenThinkIMG团队
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner