实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

9607点击 2025-11-15 11:21

微软的IE要是看到如今浏览器争霸的场面，估计都得用蹩脚的中文来一句：“生不逢时啊生不逢时！！！”

说实话，它真要这么说了，还真没人反驳得了。（笑）

毕竟这俩仨月，从Comet到Atlas，家家户户都在给自家浏览器塞AI。

小编我这阵子也试了好几款新出的AI浏览器，实不相瞒，体验过程有点坎坷...

一方面，受限于网络环境和电脑系统，不少用户可能第一步就被部分浏览器拒之门外了，对吧Open AI？

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

另一方面，像Agent这种看起来最实用的功能，不氪点金大概率用不上…

好在，也不是所有产品都需要上来就掏钱包。

这不，Flowith最近也搞了个新东西：

FlowithOS，全球首款专为AI Agent打造的操作系统，重点是Windows用户也能用，终于不是Mac专属了：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

它的最大特点是：虽然长得像浏览器，但干的却是执行的事儿，能让Agent自己动鼠标、跑流程、干活。

像下面这位网友老哥Andrew Boils，就在FlowithOS上让Agent整了个资讯自动汇总的文档：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

诶，如果真能让系统自己把流程跑了，那确实省心不少。

于是，我这次直接从检索执行、信息整合、语义理解三个维度上手测了一波。

总的来讲，FlowithOS确实具备一定的Agent检索和执行能力，但问题也同样明显，比如执行节奏容易被中途打断等等，离真正能替人省事儿还有点距离…

至于具体表现，咱接着往下看。

一手实测FlowithOS

实测之前，咱们先弄清楚一件事儿，就是AI浏览器到底该具备啥样的能力。

我粗略梳理了一下，现在市面上的AI浏览器差不多可以分为三种：

一种是传统浏览器+AI插件的组合，类似于Chrome、Edge这种，挂个扩展，就能搞定摘要、翻译、问答，但离“智能”还有一段距离。

还有一种是代理型浏览器，比如基础版的Comet，AI能在侧边栏查资料、整理信息、生成总结等等，做一些辅助性工作。

再就是像Atlas这种，直接让Agent上桌，智能体自己就能点网页、填表单、跑任务。

而FlowithOS又有点特殊，它不是浏览器，而是一个针对Agent做的操作系统，所以既保留了浏览器“能搜能看”的能力，又能自己去落地执行…

所以这次咱也不走老路数了，干脆从两条主线开测：一是Agent应该具备的检索+执行能力，二是AI浏览器该有的信息整理和语义理解能力。

看看这个能让Agent自己“下地”干活儿的OS到底几斤几两～

检索&执行能力测试

所有AI浏览器都喜欢讲一件事就是：俺能自动检索并执行任务。

但什么才算是好的“执行力”呢？

光能点网页、会搜关键词当然不够，更重要的是Agent能不能自己串起一整条任务链，执行完还能给出结果来。

我先给FlowithOS安排的，是一个具备典型链式结构的任务指令，用来验证它是否具备“跑完一整条流程”的基础执行力：

在闲鱼上找一台价格低于2200元的Pocket3，并主动联系卖家，问清最低价和购买渠道。

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

这是一个典型的多步骤、多动作任务，FlowithOS把整个执行操作大概拆成以下几个执行环节：

包括打开指定平台、发起关键词检索、筛选价格条件、进入目标详情页、发起对话，问两个关键问题以及等待回应。

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

过了大概10分钟，FlowithOS最终成功锁定了闲鱼上一位标价1850元的卖家，并成功把价格砍到了1750元：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

好消息是，它确实具备了完整行为链的执行能力，能在不依赖用户点鼠标的情况下，完成从目标理解到页面操作再到发起互动的一整套流程。

但也不是没有bug：

首先从用户体验角度看，它响应速度并不算快，步骤一多，电脑发热卡顿问题还是非常明显的…

我们用Agent去替我们做事儿的原因，不是光能给我们省力，还是要能替我们省出时间去干别的事儿。

此外购买逻辑也有一些问题。

我的原话是“货比三家”，但它显然在京东看到合适的，就急着让我先下单了，然后才补了一句：要不咱再去天猫和拼多多看看？

这逻辑就像你让朋友帮你比价，他路过第一家觉得还行，就嚷嚷着“这家买吧”，你提醒他还没逛完…

刚才的Pocket3案例属于单一对象+互动操作，虽然流程完整，但任务本身相对简单，主要考的是线性执行能力。

咱这回加点难度，来测试一下Agent执行中的多条件任务拆解能力。

这次它不仅要完成一个目标动作，还得在任务开始前就准确提取出多个筛选维度，并在执行中逐条落实，最终整合出符合所有条件的结果。

我给FlowithOS的指令是这样的：

帮我整理一下安居客平台上鹤岗市总价低于3万，面积大于45平，朝南户型的房源信息。

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

从结构上看，这个任务的关键在于三个并列筛选条件：价格、面积、朝向。

Agent需要先识别出这些逻辑约束，再在页面上完成相应筛选配置，然后在结果列表中定位匹配项，最后提取出核心信息并返回。

这回它跑了大概5分多钟，给我挑出了一套面积45平，售价2.5万的房子：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

但问题马上就来了——这套房子朝东…人家的免罪理由是：没找到朝南的房子。

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

表面上解释得过去，但用AI久了的都知道，这种说法十有八九是“没认真找”…

我一时起了疑，决定亲自上安居客查一下，果然不到两分钟就找到了不止一套符合要求的朝南房源，条件比它给出的还更好。

为了一探究竟，我调出了它的执行路径，结果一目了然：它根本没有勾选“朝向”这个筛选项，然后美名其曰说“查无此房”。

这类问题在Agent执行过程中算比较常见，明明用户的意图是全满足，系统却把多目标理解成尽量满足，在任务拆解时缺乏结构化处理能力，就会出现这种问题。

感觉不是执行不力不足，是执行过于自由…

信息整合能力测试

当然了，光能检索信息的Agent还算不上好Agent。

真正的价值还在于它能不能把信息归纳、提炼、总结，让我们省的不只是点鼠标的力气，还有思考的时间～

这回我给FlowithOS投喂的是B站UP主“食贫道”的一条视频链接，看看它能不能像个编剧助理那样，从中理出脚本思路、表达逻辑、节奏结构：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

输出的效果也还不错，结构完整，分析思路清晰，甚至把“内容主线—讲法分析—表达方式”这三板斧都总结出来了。

但我不知道大家有没有留意它的最后一句话，我特意放大给大家看：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

我稍微翻译一下：我给你的结论是基于标题和标签整理的，我只是点进了网页，但视频我没看哈。

没错，它没有真正浏览视频内容，而是靠页面附属信息给出了的分析…

为了确认是不是FlowithOS特有的偷懒操作，我又把同样的提示词丢给了Atlas，结果如出一辙：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

但说实话，出现这结果其实并不意外，这属于Agent操作中一种非常常见的处理方式：元数据提炼。

它主要参考的是标题、副标题和Tag，再结合网页结构去做总结，根本没有进入视频内容层面去浏览和归纳信息。

从当前主流大模型的能力来看，不管是ChatGPT还是Gemini，在基础模式下确实没法像人那样把视频完整看完再提炼节奏和表达。

但真正的问题是：它几乎不会明着告诉你这一点…人家不会说“我其实没看”，它只会说“你要的分析我做好了”。

而作为用户，我们很可能看到一份结构清晰的总结就直接信了，根本意识不到：这其实是AI靠“标题+标签+副标题”拼凑出来的伪逻辑。

这就像你问朋友：“你看完这片了吗？”

他说：“我翻了豆瓣短评，应该差不多懂了。”

语义理解能力测试

作为一个有着基础AI能力的操作系统，起码要能听得懂人话，这方面FlowithOS的表现确实出乎意料地好…

我这次给出的是一道需要揣测文本信息并能体现中华文化博·大·精·深的问题：

我有一个朋友快过生日了，她的MBTI是isfj，她上班有点忙经常加班，平时喜欢一个人呆着，家里还养了只小猫，你帮我给她挑一个适合她的生日礼物。

这是一道典型的共情型场景模拟题，考的是语义理解+知识联想+价值判断+情绪感知的综合能力。

大概过了十分钟，Agent帮我选出来了两个礼物，一个是香薰套餐，一个是笔记本：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

检索流程结束之后，Agent给出了它选择这两个商品作为礼物的理由：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

说实话，蛮让我震惊的，不是因为Agent准确识别了朋友的MBTI，而是能够把不同的信息串在一起进行考量。

大家看第三点，Agent在筛选完香薰后，留意到很多香薰可能会对猫咪有毒，所以最终才选择了能diy定制的笔记本，而且笔记本本身也符合isfj内心细腻又务实的特点。

说实话，测到这儿，它在我心里最大的加分项已经不是执行力，而是对复杂语义的理解能力了，确实有两下子…

小小OS，花样不少

除了执行任务的动手能力，FlowithOS还有些“动脑子”的设计，值得拿出来说说。

比如它页面里那个不太起眼的小模块——Skill，看名字是不是有点熟悉？（对，Claude前阵子也刚上线了同名功能）

在FlowithOS里，Skill不是那种外挂插件或者额外能力，它是操作系统层面的一部分，是专门用来教Agent怎么把事一步步办成的“说明书”。

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

像上面这张图，就是一个Skill模板的示意，任务是上传一条YouTube视频。整个流程从打开网页、上传视频文件、填写标题描述，到设置权限选项，全都能由Agent自动跑完。

换句话说，它不是教你怎么用YouTube，而是教Agent替你去操作YouTube，下次遇到类似任务，Agent就能照着记忆直接上手了，既提速，也提稳。

此外，FlowithOS的记忆功能也值得拿来说说，它可以根据用户的指令习惯、偏好和风格来不断优化操作系统自身，你使用它的次数越多，它就越会进化并学会成为你自己：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

在Online-Mind2Web基准测试里，FlowithOS的综合测评甚至还把Gemini和Atlas都给比下去了：

实测专盯Agent上工的OS：长得有点像AI浏览器，双系统通用

当然，测试归测试，真实使用感和测试数据还是两码事。

这轮实测下来，实话实说：FlowithOS现在离“完全成熟”还有点距离。

偶尔卡壳、加载中断、网页打不开、结果答非所问这些小毛病，还是会遇到，尤其当任务复杂度一上来，它的脑子也不是每次都在线。

但又不得不承认，它确实不太一样。

它不是把AI插在浏览器里，而是把浏览器本身变成了一个能执行任务的Agent空间，操作的“鼠标和双手”不再是用户，而是Agent本身。

每一次执行、每一条指令、每一个点错、点对的动作，都会被系统记住，并沉淀成你的专属使用方式。

所以尽管还有不少小毛病，但这东西，它确实值得等等看，没准真有那么一天，咱可能连打开电脑这一步都可以省了…（doge）

最后问一嘴，大家都装AI浏览器了吗，都用它来干点啥？

如果有什么“不想自己动手”的但还好奇想测测的AI产品，欢迎评论区留名，我们可以安排挨个测！

文章来自于微信公众号 “量子位”，作者 “量子位”

关键词: 智能体 , FlowithOS , AI Agent , AI , AI新闻

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0