实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用
8686点击    2025-11-15 11:21

微软的IE要是看到如今浏览器争霸的场面,估计都得用蹩脚的中文来一句:“生不逢时啊生不逢时!!!”


说实话,它真要这么说了,还真没人反驳得了。(笑)


毕竟这俩仨月,从Comet到Atlas,家家户户都在给自家浏览器塞AI。


小编我这阵子也试了好几款新出的AI浏览器,实不相瞒,体验过程有点坎坷...


一方面,受限于网络环境和电脑系统,不少用户可能第一步就被部分浏览器拒之门外了,对吧Open AI?


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


另一方面,像Agent这种看起来最实用的功能,不氪点金大概率用不上…


好在,也不是所有产品都需要上来就掏钱包。


这不,Flowith最近也搞了个新东西:


FlowithOS,全球首款专为AI Agent打造的操作系统,重点是Windows用户也能用,终于不是Mac专属了:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


它的最大特点是:虽然长得像浏览器,但干的却是执行的事儿,能让Agent自己动鼠标、跑流程、干活


像下面这位网友老哥Andrew Boils,就在FlowithOS上让Agent整了个资讯自动汇总的文档:

实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


诶,如果真能让系统自己把流程跑了,那确实省心不少。


于是,我这次直接从检索执行、信息整合、语义理解三个维度上手测了一波。


总的来讲,FlowithOS确实具备一定的Agent检索和执行能力,但问题也同样明显,比如执行节奏容易被中途打断等等,离真正能替人省事儿还有点距离…


至于具体表现,咱接着往下看。


一手实测FlowithOS


实测之前,咱们先弄清楚一件事儿,就是AI浏览器到底该具备啥样的能力。


我粗略梳理了一下,现在市面上的AI浏览器差不多可以分为三种:


一种是传统浏览器+AI插件的组合,类似于Chrome、Edge这种,挂个扩展,就能搞定摘要、翻译、问答,但离“智能”还有一段距离。


还有一种是代理型浏览器,比如基础版的Comet,AI能在侧边栏查资料、整理信息、生成总结等等,做一些辅助性工作。


再就是像Atlas这种,直接让Agent上桌,智能体自己就能点网页、填表单、跑任务。


而FlowithOS又有点特殊,它不是浏览器,而是一个针对Agent做的操作系统,所以既保留了浏览器“能搜能看”的能力,又能自己去落地执行…


所以这次咱也不走老路数了,干脆从两条主线开测:一是Agent应该具备的检索+执行能力,二是AI浏览器该有的信息整理语义理解能力。


看看这个能让Agent自己“下地”干活儿的OS到底几斤几两~


检索&执行能力测试


所有AI浏览器都喜欢讲一件事就是:俺能自动检索并执行任务。


但什么才算是好的“执行力”呢?


光能点网页、会搜关键词当然不够,更重要的是Agent能不能自己串起一整条任务链,执行完还能给出结果来。


我先给FlowithOS安排的,是一个具备典型链式结构的任务指令,用来验证它是否具备“跑完一整条流程”的基础执行力:


在闲鱼上找一台价格低于2200元的Pocket3,并主动联系卖家,问清最低价和购买渠道。


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


这是一个典型的多步骤、多动作任务,FlowithOS把整个执行操作大概拆成以下几个执行环节:


包括打开指定平台、发起关键词检索、筛选价格条件、进入目标详情页、发起对话,问两个关键问题以及等待回应。


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


过了大概10分钟,FlowithOS最终成功锁定了闲鱼上一位标价1850元的卖家,并成功把价格砍到了1750元:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


好消息是,它确实具备了完整行为链的执行能力,能在不依赖用户点鼠标的情况下,完成从目标理解页面操作再到发起互动的一整套流程。


但也不是没有bug:


首先从用户体验角度看,它响应速度并不算快,步骤一多,电脑发热卡顿问题还是非常明显的…


我们用Agent去替我们做事儿的原因,不是光能给我们省力,还是要能替我们省出时间去干别的事儿。


此外购买逻辑也有一些问题。


我的原话是“货比三家”,但它显然在京东看到合适的,就急着让我先下单了,然后才补了一句:要不咱再去天猫和拼多多看看?


这逻辑就像你让朋友帮你比价,他路过第一家觉得还行,就嚷嚷着“这家买吧”,你提醒他还没逛完…


刚才的Pocket3案例属于单一对象+互动操作,虽然流程完整,但任务本身相对简单,主要考的是线性执行能力。


咱这回加点难度,来测试一下Agent执行中的多条件任务拆解能力。


这次它不仅要完成一个目标动作,还得在任务开始前就准确提取出多个筛选维度,并在执行中逐条落实,最终整合出符合所有条件的结果。


我给FlowithOS的指令是这样的:


帮我整理一下安居客平台上鹤岗市总价低于3万,面积大于45平,朝南户型的房源信息。


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用

从结构上看,这个任务的关键在于三个并列筛选条件:价格、面积、朝向。


Agent需要先识别出这些逻辑约束,再在页面上完成相应筛选配置,然后在结果列表中定位匹配项,最后提取出核心信息并返回。


这回它跑了大概5分多钟,给我挑出了一套面积45平,售价2.5万的房子:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


但问题马上就来了——这套房子朝东…人家的免罪理由是:没找到朝南的房子。


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


表面上解释得过去,但用AI久了的都知道,这种说法十有八九是“没认真找”…


我一时起了疑,决定亲自上安居客查一下,果然不到两分钟就找到了不止一套符合要求的朝南房源,条件比它给出的还更好。


为了一探究竟,我调出了它的执行路径,结果一目了然:它根本没有勾选“朝向”这个筛选项,然后美名其曰说“查无此房”。


这类问题在Agent执行过程中算比较常见,明明用户的意图是全满足,系统却把多目标理解成尽量满足,在任务拆解时缺乏结构化处理能力,就会出现这种问题。


感觉不是执行不力不足,是执行过于自由…


信息整合能力测试


当然了,光能检索信息的Agent还算不上好Agent。


真正的价值还在于它能不能把信息归纳、提炼、总结,让我们省的不只是点鼠标的力气,还有思考的时间~


这回我给FlowithOS投喂的是B站UP主“食贫道”的一条视频链接,看看它能不能像个编剧助理那样,从中理出脚本思路、表达逻辑、节奏结构:




实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


输出的效果也还不错,结构完整,分析思路清晰,甚至把“内容主线—讲法分析—表达方式”这三板斧都总结出来了。


但我不知道大家有没有留意它的最后一句话,我特意放大给大家看:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


我稍微翻译一下:我给你的结论是基于标题和标签整理的,我只是点进了网页,但视频我没看哈。


没错,它没有真正浏览视频内容,而是靠页面附属信息给出了的分析…


为了确认是不是FlowithOS特有的偷懒操作,我又把同样的提示词丢给了Atlas,结果如出一辙:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


但说实话,出现这结果其实并不意外,这属于Agent操作中一种非常常见的处理方式:元数据提炼。


它主要参考的是标题、副标题和Tag,再结合网页结构去做总结,根本没有进入视频内容层面去浏览和归纳信息。


从当前主流大模型的能力来看,不管是ChatGPT还是Gemini,在基础模式下确实没法像人那样把视频完整看完再提炼节奏和表达。


但真正的问题是:它几乎不会明着告诉你这一点…人家不会说“我其实没看”,它只会说“你要的分析我做好了”。


而作为用户,我们很可能看到一份结构清晰的总结就直接信了,根本意识不到:这其实是AI靠“标题+标签+副标题”拼凑出来的伪逻辑。


这就像你问朋友:“你看完这片了吗?”


他说:“我翻了豆瓣短评,应该差不多懂了。”


语义理解能力测试


作为一个有着基础AI能力的操作系统,起码要能听得懂人话,这方面FlowithOS的表现确实出乎意料地好…


我这次给出的是一道需要揣测文本信息并能体现中华文化博·大·精·深的问题:


我有一个朋友快过生日了,她的MBTI是isfj,她上班有点忙经常加班,平时喜欢一个人呆着,家里还养了只小猫,你帮我给她挑一个适合她的生日礼物。


这是一道典型的共情型场景模拟题,考的是语义理解+知识联想+价值判断+情绪感知的综合能力。


大概过了十分钟,Agent帮我选出来了两个礼物,一个是香薰套餐,一个是笔记本:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


检索流程结束之后,Agent给出了它选择这两个商品作为礼物的理由:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用

说实话,蛮让我震惊的,不是因为Agent准确识别了朋友的MBTI,而是能够把不同的信息串在一起进行考量。


大家看第三点,Agent在筛选完香薰后,留意到很多香薰可能会对猫咪有毒,所以最终才选择了能diy定制的笔记本,而且笔记本本身也符合isfj内心细腻又务实的特点。


说实话,测到这儿,它在我心里最大的加分项已经不是执行力,而是对复杂语义的理解能力了,确实有两下子…


小小OS,花样不少


除了执行任务的动手能力,FlowithOS还有些“动脑子”的设计,值得拿出来说说。


比如它页面里那个不太起眼的小模块——Skill,看名字是不是有点熟悉?(对,Claude前阵子也刚上线了同名功能)


在FlowithOS里,Skill不是那种外挂插件或者额外能力,它是操作系统层面的一部分,是专门用来教Agent怎么把事一步步办成的“说明书”。


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


像上面这张图,就是一个Skill模板的示意,任务是上传一条YouTube视频。整个流程从打开网页、上传视频文件、填写标题描述,到设置权限选项,全都能由Agent自动跑完。


换句话说,它不是教你怎么用YouTube,而是教Agent替你去操作YouTube,下次遇到类似任务,Agent就能照着记忆直接上手了,既提速,也提稳。


此外,FlowithOS的记忆功能也值得拿来说说,它可以根据用户的指令习惯、偏好和风格来不断优化操作系统自身,你使用它的次数越多,它就越会进化并学会成为你自己:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


在Online-Mind2Web基准测试里,FlowithOS的综合测评甚至还把Gemini和Atlas都给比下去了:


实测专盯Agent上工的OS:长得有点像AI浏览器,双系统通用


当然,测试归测试,真实使用感和测试数据还是两码事。


这轮实测下来,实话实说:FlowithOS现在离“完全成熟”还有点距离。


偶尔卡壳、加载中断、网页打不开、结果答非所问这些小毛病,还是会遇到,尤其当任务复杂度一上来,它的脑子也不是每次都在线。


但又不得不承认,它确实不太一样。


它不是把AI插在浏览器里,而是把浏览器本身变成了一个能执行任务的Agent空间,操作的“鼠标和双手”不再是用户,而是Agent本身。


每一次执行、每一条指令、每一个点错、点对的动作,都会被系统记住,并沉淀成你的专属使用方式。


所以尽管还有不少小毛病,但这东西,它确实值得等等看,没准真有那么一天,咱可能连打开电脑这一步都可以省了…(doge)


最后问一嘴,大家都装AI浏览器了吗,都用它来干点啥?


如果有什么“不想自己动手”的但还好奇想测测的AI产品,欢迎评论区留名,我们可以安排挨个测!


文章来自于微信公众号 “量子位”,作者 “量子位”

关键词: 智能体 , FlowithOS , AI Agent , AI , AI新闻
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0