UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
5966点击    2025-09-04 12:24

加州大学最新推出Orca浏览器,把拥挤标签页变成可随意拖拽、并排比较的无限画布,让AI替你同时点按钮、填表单。你只需像指挥家一样扫一眼全局、下指令,就能让上百个网页和智能体自动完成搜索、整理、汇总,全程可控。


我们早已习惯那排拥挤的标签页,这种线性堆叠在信息发现与跨页整合时不仅加重负担,也制造了高昂的管理成本。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


预订旅行酒店便是例子:用户需在多个选项间权衡比较、了解均价,并结合机票与活动随时调整计划,而单页式浏览器迫使用户反复切换界面,频频丢失上下文。


即便是基于传统范式的AI浏览器,如Arc的Dia或Perplexity的Comet,也只是在单页框架下加入了智能体功能。


用户一次只能启用、控制并追踪一个智能体,难以真正扩展为成规模的网页自动化工作流。


AI智能体的最大潜力,就是将我们从细节性的任务中解放出来(点按按钮、填写表单),从而在复杂的信息空间和工作中纵览全局,操控成百上千的智能体为我们收集、整理、汇总信息,生成报告并完成任务。


然而,现在还没有一个为此而设计的交互界面。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


那么,我们应该怎样重新定义浏览器的界面,让用户可以纵览、比较多个网页之中的信息,同时调度指挥多个AI智能体?


为调度智能体而生的浏览器


为此,加州大学圣地亚哥分校的研究者设计了Orca浏览器,把视角拉远,让用户可以在无限的画布空间中浏览、管理网页,并部署、调度自动化智能体来提取相关的信息并完成具体的操作。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


论文链接:https://arxiv.org/pdf/2505.22831


项目链接:https://orca.jiang.pl


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


Orca最核心的设计探索,就是将网页不再看作我们只能浏览、操作的固定界面,而是人人可以根据自己的任务和需求实时并行查看、灵活提取、动态重组的可塑材料(malleable materials)。


而浏览器也不再仅是渲染网页的容器,而是可以根据用户现实的需求动态变化的可塑空间(malleable space)。在这个环境中,用户和AI可以协作,将这些「网页材料」组合成一个定制化的工作区。


在这种理念下,用户可以对多个网页同时进行导航、操作和整合。研究者将这一过程定义为「编排」(orchestration)。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


在这个过程中,AI扮演着促进者的角色:它加速重复性工作,成倍地拓展用户可接触的信息,并帮助他们理解;而用户可以选择性地深入研究、监控把关AI的执行。


最终的控制权始终掌握在用户手中,从而让用户真正实现大规模浏览(browsing at scale)。


Orca如何实现大规模浏览?


基于新的空间化的浏览范式,研究者设计了一整套针对复杂信息空间中各种信息任务的交互原型。


大规模查看


Orca提供一个空间化的网页画布:把多个网页当成可拖拽/缩放的对象,就像在Figma里排版。用户可并排对照、按任务分簇,随探索范围扩大而能够在缩放中纵览全局。


大规模管理


用户可将网页按网格或堆栈排列,或是把一组网页转换成表格以提取最重要的信息,比如酒店价格、设施的结构化对比。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


大规模导航


Orca提供两种快速而规模化探索网页的方式。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


对搜索结果等密集链接页,用户可以通过LLM一次性「批量打开」多个符合条件的链接。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


或者,Orca可以基于当前页语境给出自动的「情境扩展」建议(如在订酒店时建议查机票、跨平台同店比较),用户可以通过拖拽灵活地控制打开多少页面。


大规模提取


用户可以用自然语言同时从多页抽取关键信息(如Wi-Fi、价格、营业时间),并把答案以统一小卡片显示在每页上面,便于快速扫过所有网页。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


大规模操作与汇总


最后,用户可以便捷地在每个页面中部署调度不同的智能体以完成情境下的任务。每个智能体通过不同颜色的虚拟光标来显示,以方便用户追踪和查看。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


和许多其他AI浏览器一样,用户也可以选择单个或多个网页,并对它们进行提问,如果当前页信息没有办法回答用户的问题,Orca 将会自动部署智能体进行探索并找到答案。


用户实验

「再也不怕打开大量页面了」


研究团队对8名参与者进行了一项初步的实验室研究,以评估Orca的有效性。结果非常积极:


激发更强的探索欲


由于Orca显著降低了管理和导航多页面的成本,参与者表示更愿意探索更多内容。一位用户评价道,「现在的一次点击相当于过去的很多次点击」。尤其是页面提取功能,让用户「再也不怕一开始就打开一大堆页面」,因为它能帮助快速筛选信息。


空间布局直观易用


所有参与者都认为空间画布易于使用,无论其经验如何。他们喜欢这种「鸟瞰图」式的体验,认为这有助于清晰地掌握自己的探索进度。


增强控制权与信任感


与全自动 AI 搜索引擎相比,用户在使用 Orca 时感觉对信息来源有更强的控制力,因此更信任其结果。


他们可以亲自验证 AI 的发现,并主导研究过程,而非「盲目」接受摘要。


例如,用户可以指定 AI 仅从其信任的社区页面中生成摘要。


总结


Orca 项目展示了一种与当前主流的全自动化AI智能体不同的发展方向。它没有将用户从浏览过程中「移除」,而是通过AI赋能,将用户提升为一位「指挥家」,在可塑的浏览器空间中,大规模地「编排」海量网页信息。


这项研究为未来浏览器的设计指明了一个充满希望的方向:将AI能力深度整合到个人化、用户驱动的信息任务中,在降低认知与交互成本的同时,保留并增强用户的自主权、参与感和创造力。


Orca 原型将会开源,以促进社区对大规模网页浏览和并行智能体自动化的进一步探索。想查看更多信息及加入等候名单可前往https://orca.jiang.pl。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


作者信息


江沛岭,目前博士就读于加州大学圣地亚哥分校。本科毕业于纽约大学。他的研究广泛地将新颖的交互设计应用于复杂多变的信息系统与任务之中。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


个人主页:https://jiang.pl


夏海峻,目前任教于加州大学圣地亚哥分校认知科学系,领导 Foundation Interface 实验室,研究人机交互并探索以可塑的信息与界面为基础的人机协作新范式。本科毕业于清华大学。


UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互


个人主页:https://haijunxia.ucsd.edu


参考资料:


https://arxiv.org/pdf/2505.22831


https://orca.jiang.pl


文章来自于微信公众号“新智元”。


关键词: AI新闻 , 智能体 , Orca , AI浏览器 , GUI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/