过去一周,我把主流 AI 浏览器都体验了个遍。
OpenAI 的 Atlas、Perplexity 的 Comet、Browser Company 的 Dia,再加上 Edge Copilot,市面上最火的 AI 浏览器,各有各的亮点,也各有各的坑。
浏览器的未来长啥样?这些产品给出了完全不同的答案。
简单粗暴地分,就是两派。

渐进派以 Chrome 和 Edge 为代表,在传统浏览器里加 AI 功能。Google 占着全球最大市场份额,为了照顾大多数用户习惯,它也没必要推倒重来。AI 就是个附加功能,浏览器还是那个浏览器。
和海外版 Chrome 一样,Edge 也在右上角放了个 AI 助手按钮,点开就是侧边栏。不同的是,Edge Copilot 更倾向于语音交互,实测下来中文口音有点怪,而且也不太符合实际使用场景。
以 ChatGPT Atlas 代表的激进派,则是把 AI 当作浏览器的核心,整个浏览器都围绕 AI 对话来设计。简言之,浏览器本身就是 AI。

当然,现在的浏览器已经不满足于回答「是什么」和「为什么」,更要帮你做「怎么办」,比如 Atlas 和 Comet 所支持的智能体(Agent)模式,在你下达指令后,它就能去执行。
结论如下:
让 AI 浏览器帮我干活,谁更好用?
我们给这几款浏览器出了几道「考题」,测测它们的 AI 智商。
总结文章

Dia 浏览器截图
Dia 速度最快,几秒出结果,适合快速浏览但缺细节。Comet 的概括信息则更扎实,几乎把文章主要知识点都梳理出来了。

Comet 浏览器截图
Edge Copilot 有点接近专业媒体编辑,能提炼「广告机制」「平台转变」等逻辑分层,结构感强,不过,就是 AI 味太重。

Edge Copilot 浏览器截图
而 Atlas 最「人味」,不仅捕捉事实,还能延展到价值观层面,带有些许观点的观察。

Atlas 浏览器截图
一句话总结:Dia 求快、Comet 求全、Edge 求稳、Atlas 求深。
归根结底还是看谁家底层模型更强。比如 Atlas 用的是自家 GPT 模型,主场作战确实有先天优势。
总结视频
总结视频的前提还是得有字幕,不然 AI 也巧妇难为无米之炊。
Dia 和 Atlas 都能生成摘要,适合速览,还有具体的时间轴分析,像做笔记一样详细。只不过,前者生成的速度更快。

Dia 浏览器截图

Atlas 浏览器截图
Edge Copilot 虽然 AI 味很重,但它不仅能理解文字表面的内容,还能识别作者在表达中的立场与情绪倾向,表达更清晰。

Edge Copilot 浏览器截图
Perplexity Comet 效果一般,一顿操作猛如虎,最终只给出了一个马马虎虎的概览。

Comet 浏览器截图
规划旅行我们试了个需求:「我想周末从上海去广州玩两天,帮我安排路线、酒店和预算。」
整体来看,ChatGPT Atlas 最让我省心。

Atlas 浏览器截图
它直接生成完整的行程攻略,从路线到预算全都整合好,汇总了携程等多平台信息,图文细节丰富,更适合出门追求细节的 J 人。

Edge Copilot 浏览器截图
Edge Copilot 和 Comet 虽说也都给了完整的行程清单,但 Comet 稍微实用一点,Edge 更像 AI 模板化输出。

Comet 浏览器截图
Dia 配合 Google 搜索直接生成方案,省事但信源模糊。

Dia 浏览器截图
说实话,现在还不能完全指望 AI 的旅行攻略,只能当个大方向参考。 真正靠谱的信息还得去社交媒体翻翻真人经验帖。
谁能真帮你干活?
最能体现 AI 浏览器差异的,还得看 Agnet 执行力。
我们让它们「在苹果官网购买一台 iPhone 17 Pro Max」。
Dia 能迅速识别用户意图,生成清晰的步骤式购买指南(访问官网 → 选型号 → 选支付),给出具体的数据,但不会真的帮你下单。

Dia 浏览器截图
Edge Copilot 更接近「AI 信息检索助手」,能快速解析命令、准确描述网页状态,但同样不会真的点击,只受限于问答式交互。

Edge Copilot 浏览器截图
Comet 是真的会去点、会输、会跳页面,全程模拟人工代购,只是执行速度慢偏重机械执行,直到执行到最后一步——付账。

Comet 浏览器截图
而 ChatGPT Atlas 不仅理解网页内容,还能模拟操作、跨页追踪、整理文件、生成报告,甚至执行自动化脚本。它还有记忆能力(还记得我昨天看的机器人评测视频吗?),隔了一天它也真能想起来。
除了购物,跨平台比价也是硬需求。
虽然 Comet 和 atlas 都号称能够执行复杂的任务,但实测下来,ChatGPT Atlas 的优势太明显了。

Comet 浏览器截图
我的感觉是,目前 Comet 更像一个聪明的 AI 搜索助手,它的核心其实还是信息聚合与轻任务执行,能快速整合网页、学术和视频等多信源并生成简报或对比结果,响应速度快但只能做单步任务。

Atlas 浏览器截图
而 ChatGPT Atlas 属于真正意义上的「执行型浏览器 Agent」,不仅能理解网页内容,还能模拟用户操作,比如点击、输入、跨页追踪、整理文件,甚至生成报告或执行自动化脚本。
这或许也验证了一件事:AI 时代,应用层的创新门槛其实不高,真正的壁垒还是模型本身。有自家 AI 撑腰的,确实能一路平推。
别急着换 AI 浏览器,这些坑你必须知道
Chrome 的扩展插件生态已经很成熟了,看到这,可能有人会说:Chrome 装几个插件不就相当于 Atlas 吗?
坦白说,对于文章总结、网页翻译这类简单任务,Chrome 插件确实够用。装个插件几秒钟就能提取要点,体验不比 AI 浏览器差多少。但一旦涉及复杂任务,插件就彻底抓瞎了。
更深层的差异在于对未来互联网的理解。现在的互联网是为人类设计的,页面布局、交互逻辑都围绕人的视觉和点击习惯。但如果互联网的主要用户是 AI 和 Agent 呢?
浏览器的核心不再是浏览,而是执行。你不需要知道信息在哪个网站,只需要告诉 AI 你要什么,它自己去找、去做、去整合。
但从现实角度看,这些 AI 浏览器的策略都更稳妥,直接兼容 Chrome 扩展,用户迁移毫无压力。

当然,虽然这些 AI 浏览器都套了 Chromium 的壳,但 OpenAI 并不是简单的「套壳」。
根据其博客介绍,它通过自研的 OWL(OpenAI's Web Layer)架构,重新设计了浏览器与底层引擎的关系,用 SwiftUI、AppKit、Metal 等原生框架重构界面,实现了秒级启动、更高并发和更安全的智能体运行环境。
我的电脑是 M2 MacBook Air,就体感而言,性能、速度、稳定性其实没太大差别。另外,各个浏览器都支持导入书签、垂直标签页,这些都是基本操作。
值得一提的是,AI 浏览器面临一个严重安全威胁,叫「间接提示注入攻击」。简单说,就是黑客将恶意指令隐藏在网页、邮件等内容中,当大型语言模型分析这些内容时,会误将隐藏指令当作用户的真实命令执行。
根据 Brave 的研究,多款产品都存在漏洞,包括 Perplexity Comet、Fellou 浏览器,以及 OpenAI 新发布的 ChatGPT Atlas。

这些攻击可能造成严重后果,从影响 AI Agent 的购物判断,到窃取私人数据、邮件敏感信息、账户凭据,甚至注入恶意代码或植入恶意软件。
OpenAI 首席信息安全官 Dane Stuckey 本周也公开承认提示注入攻击是严重威胁,但也坦言这是一个「前沿问题」,目前尚无明确解决方案。
为此 OpenAI 也只能采取了多项措施,包括建立快速响应系统、进行红队测试、推出未登录模式、以及引入监控模式要求用户在敏感网站操作时实时查看 Agent 行为。
最大的挑战在于 AI Agent 本身的特性。
它们像人类一样会访问可疑网站、点击危险链接,但缺乏常识和安全直觉,极易被精心设计的指令误导甚至劫持。更棘手的是,这些攻击手段非常隐蔽,可能藏在图片、截图、表单、邮件里,甚至仅仅是白底上的白色文字,防不胜防。
那么,你到底该选哪个浏览器?
就成本而言,Atlas 浏览器免费,但核心「Agent 模式」仅对 ChatGPT Plus/Pro 等用户开放,这是用核心服务「锁住」用户。Comet 走免费增值路线,基础功能免费,但 Agent 任务数量有限制。
Dia 是订阅制(20 美元每月享受 AI 功能),模式最纯粹,目前小众,主要也不靠广告赚钱,但在被 Atlassian 收购之后,未来暂不好说。Chrome 和 Edge 的模型成本由自家广告业务和云业务支撑,所以也最大方。

而如果你本来就是 ChatGPT 的重度用户,或者已经是 Plus/Pro 付费会员,Atlas 会很顺手,几乎零学习成本。与此同时,它的执行力和记忆能力也确实比其他几个强。
如果你需要严谨的信源追溯,做研究、查资料、写报告,Perplexity Comet 最靠谱。虽然执行力不如 Atlas 那么灵活,但至少不会让你因为信息来源不明而心里没底。
如果你想尝鲜 AI,但又不想折腾,Chrome、Edge 就够了,兼容 Chrome 扩展,迁移成本低,还免费。虽然 AI 功能没那么激进,但对大多数人来说,够用了。
如果你追求极简和专注,不介意每月花 20 美元,Dia 是个不错的选择,只是小众产品的未来总会难免有些不确定性。

文章来自于微信公众号 “APPSO”,作者 “APPSO”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/