HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命
5501点击    2026-05-20 09:52

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式,面对多目标时往往陷入交互冗长、错误级联累积的泥沼。


为此,小红书研究团队提出了一款全新架构的模型:HyperEyes。通过统一定位与搜索的动作空间、构建并行可学习数据以及双粒度效率感知强化学习的全栈设计,HyperEyes 成功实现了从「搜得更深」到「搜得更宽」的并行多模态搜索范式跃迁。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


  • 论文地址:https://arxiv.org/abs/2605.07177 
  • 代码地址:https://github.com/DeepExperience/HyperEyes 


背景:多模态搜索智能体的「串行困局」


当前主流的 Agent 在面对包含多个实体的复杂图片时,往往只能采用笨拙的「N 轮串行调用」策略。


这种传统的处理路径带来了三重难以逾越的困境:首先是极大的交互冗余,原本一句话的多实体查询被迫退化为多次单实体搜索,导致延迟剧增;其次是错误放大的多米诺骨牌效应,前置定位一旦发生偏差,后续的搜索结果将被全部污染;最后是模型训练中普遍存在的奖励偏差与「信用分配」问题。


现有模型往往仅以「最终答案对错」作为唯一奖励标准,这不仅会导致智能体为了追求表面准确率而养成「暴力多搜」的坏习惯,引入更多噪声;更致命的是,这种粗粒度的稀疏奖励会带来粗暴的「连坐惩罚」—— 在那些最终失败的探索轨迹中,原本正确、富有逻辑的中间推理和工具调用也被一并全盘否定,导致模型根本无法从失败中有效汲取局部经验。


方法:从动作空间、数据到 RL 的「全栈式」效率重塑


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


为了让智能体真正具备「一次出手,多目标并发」的内生能力,HyperEyes 研究团队在动作空间、数据合成与强化学习三个维度上进行了彻底的底层重构。


传统的智能体通常将「视觉裁剪」和「网络搜索」作为两个独立的步骤,而 HyperEyes 打破了这一隔离,提出了「统一定位即搜索」(UGS)的动作空间重构方案。它将视觉定位框直接作为检索动作的内嵌参数,使得一次函数调用就能并发携带多个目标框。这一设计从物理层面彻底打通了单轮交互内多目标并发的通路。


然而,空有架构还不够,开源社区长期缺乏「并行搜索」的训练语料。为此,研究团队设计了一套精密的合成流水线。他们首先将多类图片拼接,合成出必须同时进行定位与检索才能解答的视觉查询;接着基于图谱随机游走,构造出多约束的交集问题并严格剔除捷径解;最后,通过渐进式拒绝采样(PRS)技术,在严格的递增轮次预算下,提纯出 3 万条「零冗余」的并行行为种子数据,完美解决了模型 SFT 冷启动的难题。


在最核心的强化学习(RL)对齐阶段,HyperEyes 彻底颠覆了传统 RL 的「唯结果论」范式。传统的稀疏奖励往往会引发双重隐患:缺乏效率约束的奖励机制会纵容模型养成「冗余试错」的惰性,以牺牲推理速度为代价换取准确率;更糟糕的是,在处理长周期任务时,粗暴的结果导向会带来极其不公平的「连坐惩罚」—— 即便是一次堪称完美的中间推理过程,也会因为最终环节的失误被彻底抹杀,导致模型在复杂探索中迷失方向。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


针对这一问题,团队创新性地提出了「宏观 + 微观」的双粒度效率感知强化学习框架。在宏观轨迹层面,系统引入了 TRACE(动态参考的成本效率奖励)机制。这并不是一个一刀切的步数死命令,而是一把「自我超越」的动态标尺。系统会将模型当前的工具调用表现与标尺对比,只有比标尺更高效才能获得奖励。在每个 Epoch 结束后,系统会自动用本轮表现最好、步数最少的轨迹去刷新并收紧标尺。这就像跳高比赛,横杆随着模型能力的提升越调越高,逼迫模型不断挤出水分。


而在微观 Token 层面,为了精准抢救失败轨迹中的「正确中间过程」,HyperEyes 引入了 OPD(策略内蒸馏)机制。这一机制只在轨迹最终答错时才会启动,届时会引入一个 235B 的满血版教师模型,为失败轨迹中的每一步提供稠密的 Token 级监督信号,精准打捞那些原本正确的中间规划。


这种「仅在失败时蒸馏」的非对称设计,完美避免了对学生模型「高效并发」本能的覆盖。成功时由宏观奖励主导效率,失败时由微观蒸馏托底纠偏,宏微观的严丝合缝,彻底释放了多模态大模型的并发检索天性。


IMEB Benchmark:把「搜索效率」作为重要评估维度


现有多模态榜单普遍存在「只看准不看快」的弊端。为了纠正这一导向,团队发布了首个包含 300 条极具挑战性多实体视觉评测基准的 IMEB (Image Multi-Entity Benchmark)。


与之配套,团队还提出了「成本感知评分」 (CAS)。该评分标准在统一标尺下,将准确率、Token 消耗和工具调用轮次进行联合评估,把传统的答案质量换算为「单位延迟下的有效信息密度」,从根本上遏制了大模型靠堆砌算力暴力刷榜的行为。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


实验结果与核心发现


在随后的 6 大主流基准测试中,HyperEyes 展现出了极具统治力的表现,实现了准确率与效率的 Pareto 占优。全面建立开源 SOTA 并非虚言 ——HyperEyes-30B 以 64.0% 的准确率超越同量级最强开源模型 VDR 达 9.9%,而其平均工具调用轮次仅为 VDR 的不到五分之一(2.2 对比 11.6)。而其 235B 版本更是以仅 1.1% 的微弱差距逼近闭源旗舰 Gemini-3.1-Pro。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


在极为严苛的 CAS 成本效率评分中,30B 版本的表现达到了次优开源模型的 7.6 倍,证明其每一单位算力输出的信息密度都极高。消融实验也证实了,这种底层的动作空间重构设计,对传统的「LLM 外挂裁剪」或「代码沙箱裁剪」构成了降维打击。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


更有意思的是其面对噪声的强鲁棒性。在真假证据混合的干扰测试中,HyperEyes 这种「敢于少搜、一次看全」的并行策略,反而大幅规避了过度检索带来的幻觉陷阱。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


在一个面对 6 人同框复杂问答的真实测试案例中,传统 Agent 因为「逐一裁剪 + 搜索」的笨拙逻辑将流程拖拽至 12 轮,最终因噪声累积而答错;而 HyperEyes 首轮即并发定位并检索了全部 6 人,仅用 3 轮便给出精准答案,直观地展现了什么叫「一次出手,看清全局」。


HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命


结语:多模态搜索智能体的下一站,是「效率即智能」


长期以来,大家普遍认为多模态搜索必须通过串行加深来保证准确度,而 HyperEyes 打破了这一固有惯性。它用翔实的实验证明了,在 Agent 训练中,「准确率」与「效率」完全可以协同进化。


随着多模态 Agent 逐渐步入电商比价、视觉检索、实时交互等真实的高并发业务场景,从「搜得更深」转向「搜得更宽」,必将成为下一代智能体角逐的核心竞争力。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md