微软的IE要是看到如今浏览器争霸的场面,估计都得用蹩脚的中文来一句:“生不逢时啊生不逢时!!!”
说实话,它真要这么说了,还真没人反驳得了。(笑)
毕竟这俩仨月,从Comet到Atlas,家家户户都在给自家浏览器塞AI。
小编我这阵子也试了好几款新出的AI浏览器,实不相瞒,体验过程有点坎坷...
一方面,受限于网络环境和电脑系统,不少用户可能第一步就被部分浏览器拒之门外了,对吧Open AI?

另一方面,像Agent这种看起来最实用的功能,不氪点金大概率用不上…
好在,也不是所有产品都需要上来就掏钱包。
这不,Flowith最近也搞了个新东西:
FlowithOS,全球首款专为AI Agent打造的操作系统,重点是Windows用户也能用,终于不是Mac专属了:

它的最大特点是:虽然长得像浏览器,但干的却是执行的事儿,能让Agent自己动鼠标、跑流程、干活。
像下面这位网友老哥Andrew Boils,就在FlowithOS上让Agent整了个资讯自动汇总的文档:

诶,如果真能让系统自己把流程跑了,那确实省心不少。
于是,我这次直接从检索执行、信息整合、语义理解三个维度上手测了一波。
总的来讲,FlowithOS确实具备一定的Agent检索和执行能力,但问题也同样明显,比如执行节奏容易被中途打断等等,离真正能替人省事儿还有点距离…
至于具体表现,咱接着往下看。
实测之前,咱们先弄清楚一件事儿,就是AI浏览器到底该具备啥样的能力。
我粗略梳理了一下,现在市面上的AI浏览器差不多可以分为三种:
一种是传统浏览器+AI插件的组合,类似于Chrome、Edge这种,挂个扩展,就能搞定摘要、翻译、问答,但离“智能”还有一段距离。
还有一种是代理型浏览器,比如基础版的Comet,AI能在侧边栏查资料、整理信息、生成总结等等,做一些辅助性工作。
再就是像Atlas这种,直接让Agent上桌,智能体自己就能点网页、填表单、跑任务。
而FlowithOS又有点特殊,它不是浏览器,而是一个针对Agent做的操作系统,所以既保留了浏览器“能搜能看”的能力,又能自己去落地执行…
所以这次咱也不走老路数了,干脆从两条主线开测:一是Agent应该具备的检索+执行能力,二是AI浏览器该有的信息整理和语义理解能力。
看看这个能让Agent自己“下地”干活儿的OS到底几斤几两~
所有AI浏览器都喜欢讲一件事就是:俺能自动检索并执行任务。
但什么才算是好的“执行力”呢?
光能点网页、会搜关键词当然不够,更重要的是Agent能不能自己串起一整条任务链,执行完还能给出结果来。
我先给FlowithOS安排的,是一个具备典型链式结构的任务指令,用来验证它是否具备“跑完一整条流程”的基础执行力:
在闲鱼上找一台价格低于2200元的Pocket3,并主动联系卖家,问清最低价和购买渠道。

这是一个典型的多步骤、多动作任务,FlowithOS把整个执行操作大概拆成以下几个执行环节:
包括打开指定平台、发起关键词检索、筛选价格条件、进入目标详情页、发起对话,问两个关键问题以及等待回应。

过了大概10分钟,FlowithOS最终成功锁定了闲鱼上一位标价1850元的卖家,并成功把价格砍到了1750元:

好消息是,它确实具备了完整行为链的执行能力,能在不依赖用户点鼠标的情况下,完成从目标理解到页面操作再到发起互动的一整套流程。
但也不是没有bug:
首先从用户体验角度看,它响应速度并不算快,步骤一多,电脑发热卡顿问题还是非常明显的…
我们用Agent去替我们做事儿的原因,不是光能给我们省力,还是要能替我们省出时间去干别的事儿。
此外购买逻辑也有一些问题。
我的原话是“货比三家”,但它显然在京东看到合适的,就急着让我先下单了,然后才补了一句:要不咱再去天猫和拼多多看看?
这逻辑就像你让朋友帮你比价,他路过第一家觉得还行,就嚷嚷着“这家买吧”,你提醒他还没逛完…
刚才的Pocket3案例属于单一对象+互动操作,虽然流程完整,但任务本身相对简单,主要考的是线性执行能力。
咱这回加点难度,来测试一下Agent执行中的多条件任务拆解能力。
这次它不仅要完成一个目标动作,还得在任务开始前就准确提取出多个筛选维度,并在执行中逐条落实,最终整合出符合所有条件的结果。
我给FlowithOS的指令是这样的:
帮我整理一下安居客平台上鹤岗市总价低于3万,面积大于45平,朝南户型的房源信息。

从结构上看,这个任务的关键在于三个并列筛选条件:价格、面积、朝向。
Agent需要先识别出这些逻辑约束,再在页面上完成相应筛选配置,然后在结果列表中定位匹配项,最后提取出核心信息并返回。
这回它跑了大概5分多钟,给我挑出了一套面积45平,售价2.5万的房子:

但问题马上就来了——这套房子朝东…人家的免罪理由是:没找到朝南的房子。

表面上解释得过去,但用AI久了的都知道,这种说法十有八九是“没认真找”…
我一时起了疑,决定亲自上安居客查一下,果然不到两分钟就找到了不止一套符合要求的朝南房源,条件比它给出的还更好。
为了一探究竟,我调出了它的执行路径,结果一目了然:它根本没有勾选“朝向”这个筛选项,然后美名其曰说“查无此房”。
这类问题在Agent执行过程中算比较常见,明明用户的意图是全满足,系统却把多目标理解成尽量满足,在任务拆解时缺乏结构化处理能力,就会出现这种问题。
感觉不是执行不力不足,是执行过于自由…
当然了,光能检索信息的Agent还算不上好Agent。
真正的价值还在于它能不能把信息归纳、提炼、总结,让我们省的不只是点鼠标的力气,还有思考的时间~
这回我给FlowithOS投喂的是B站UP主“食贫道”的一条视频链接,看看它能不能像个编剧助理那样,从中理出脚本思路、表达逻辑、节奏结构:

输出的效果也还不错,结构完整,分析思路清晰,甚至把“内容主线—讲法分析—表达方式”这三板斧都总结出来了。
但我不知道大家有没有留意它的最后一句话,我特意放大给大家看:

我稍微翻译一下:我给你的结论是基于标题和标签整理的,我只是点进了网页,但视频我没看哈。
没错,它没有真正浏览视频内容,而是靠页面附属信息给出了的分析…
为了确认是不是FlowithOS特有的偷懒操作,我又把同样的提示词丢给了Atlas,结果如出一辙:

但说实话,出现这结果其实并不意外,这属于Agent操作中一种非常常见的处理方式:元数据提炼。
它主要参考的是标题、副标题和Tag,再结合网页结构去做总结,根本没有进入视频内容层面去浏览和归纳信息。
从当前主流大模型的能力来看,不管是ChatGPT还是Gemini,在基础模式下确实没法像人那样把视频完整看完再提炼节奏和表达。
但真正的问题是:它几乎不会明着告诉你这一点…人家不会说“我其实没看”,它只会说“你要的分析我做好了”。
而作为用户,我们很可能看到一份结构清晰的总结就直接信了,根本意识不到:这其实是AI靠“标题+标签+副标题”拼凑出来的伪逻辑。
这就像你问朋友:“你看完这片了吗?”
他说:“我翻了豆瓣短评,应该差不多懂了。”
作为一个有着基础AI能力的操作系统,起码要能听得懂人话,这方面FlowithOS的表现确实出乎意料地好…
我这次给出的是一道需要揣测文本信息并能体现中华文化博·大·精·深的问题:
我有一个朋友快过生日了,她的MBTI是isfj,她上班有点忙经常加班,平时喜欢一个人呆着,家里还养了只小猫,你帮我给她挑一个适合她的生日礼物。
这是一道典型的共情型场景模拟题,考的是语义理解+知识联想+价值判断+情绪感知的综合能力。
大概过了十分钟,Agent帮我选出来了两个礼物,一个是香薰套餐,一个是笔记本:

检索流程结束之后,Agent给出了它选择这两个商品作为礼物的理由:

说实话,蛮让我震惊的,不是因为Agent准确识别了朋友的MBTI,而是能够把不同的信息串在一起进行考量。
大家看第三点,Agent在筛选完香薰后,留意到很多香薰可能会对猫咪有毒,所以最终才选择了能diy定制的笔记本,而且笔记本本身也符合isfj内心细腻又务实的特点。
说实话,测到这儿,它在我心里最大的加分项已经不是执行力,而是对复杂语义的理解能力了,确实有两下子…
除了执行任务的动手能力,FlowithOS还有些“动脑子”的设计,值得拿出来说说。
比如它页面里那个不太起眼的小模块——Skill,看名字是不是有点熟悉?(对,Claude前阵子也刚上线了同名功能)
在FlowithOS里,Skill不是那种外挂插件或者额外能力,它是操作系统层面的一部分,是专门用来教Agent怎么把事一步步办成的“说明书”。

像上面这张图,就是一个Skill模板的示意,任务是上传一条YouTube视频。整个流程从打开网页、上传视频文件、填写标题描述,到设置权限选项,全都能由Agent自动跑完。
换句话说,它不是教你怎么用YouTube,而是教Agent替你去操作YouTube,下次遇到类似任务,Agent就能照着记忆直接上手了,既提速,也提稳。
此外,FlowithOS的记忆功能也值得拿来说说,它可以根据用户的指令习惯、偏好和风格来不断优化操作系统自身,你使用它的次数越多,它就越会进化并学会成为你自己:

在Online-Mind2Web基准测试里,FlowithOS的综合测评甚至还把Gemini和Atlas都给比下去了:

当然,测试归测试,真实使用感和测试数据还是两码事。
这轮实测下来,实话实说:FlowithOS现在离“完全成熟”还有点距离。
偶尔卡壳、加载中断、网页打不开、结果答非所问这些小毛病,还是会遇到,尤其当任务复杂度一上来,它的脑子也不是每次都在线。
但又不得不承认,它确实不太一样。
它不是把AI插在浏览器里,而是把浏览器本身变成了一个能执行任务的Agent空间,操作的“鼠标和双手”不再是用户,而是Agent本身。
每一次执行、每一条指令、每一个点错、点对的动作,都会被系统记住,并沉淀成你的专属使用方式。
所以尽管还有不少小毛病,但这东西,它确实值得等等看,没准真有那么一天,咱可能连打开电脑这一步都可以省了…(doge)
最后问一嘴,大家都装AI浏览器了吗,都用它来干点啥?
如果有什么“不想自己动手”的但还好奇想测测的AI产品,欢迎评论区留名,我们可以安排挨个测!
文章来自于微信公众号 “量子位”,作者 “量子位”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0