你还记得 2008 年苹果刚推出 App Store 时的样子吗?当时只有 500 个应用,大部分是手电筒、计算器或简单的游戏,甚至还有一个爆火的假装喝啤酒的应用。那时候谁能想到,几年后这个平台会催生出 Uber、Instagram 和 WhatsApp 这样改变世界的应用?现在,我们正站在另一个类似的转折点上,只不过这次的主角不是移动应用,而是浏览器 AI agent。最近,一家名为 Kernel 的公司完成了 2200 万美元的种子轮和 A 轮融资,由 Accel 领投,Y Combinator、Cintrifuse Capital、Refinery Ventures、Vercel Ventures 和 SV Angel 参与。更引人注目的是,Paul Graham、Solomon Hykes、David Cramer 这些构建了过去十年最重要开发者平台的传奇人物,都作为天使投资人参与了这轮融资。

当我深入了解 Kernel 在做什么时,我意识到这不只是又一个 AI 基础设施公司那么简单。他们正在构建一个全新的应用生态系统,就像当年的 App Store 一样,只不过这次的载体是浏览器 AI agent。这些 agent 可以像人类一样浏览网页、点击链接、填写表单、抓取数据,并且能够 24/7 不间断运行,可以无限扩展,还能通过代码进行编排。我认为,这代表着软件分发和使用方式的又一次根本性变革,而 Kernel 正站在这场变革的最前沿。
为什么浏览器 AI Agent 是新的应用商店
我一直在思考一个问题:为什么浏览器 AI agent 会成为下一个应用生态?要回答这个问题,我们需要先理解传统应用商店模式的局限性。在当前的模式下,每个应用都是一个孤岛。你想订机票要打开一个应用,查天气要打开另一个应用,管理日历又要切换到第三个应用。这种割裂的体验不仅效率低下,也造就了一个个"围墙花园",应用之间几乎无法互相沟通。你无法轻松地让订票应用自动把航班信息同步到日历,也无法让它在订票前先帮你查一下目的地的天气。每个应用都在争夺你的注意力,都想把你锁定在自己的生态系统中。

浏览器 AI agent 的出现彻底改变了这个游戏规则。它不再是以应用为中心,而是以任务为导向。用户只需要用自然语言描述自己的目标,agent 就会自动编排整个工作流程,跨越多个网站完成任务。举个例子,你不再需要分别打开旅行预订网站、天气应用和日历,而是简单地告诉 agent"帮我计划下个月去巴黎的旅行"。agent 会自动找到合适的航班和酒店,查看天气预报,然后在你的日历中标记出行时间。整个过程流畅自然,就像有一个真人助理在帮你处理这些琐事。
我认为浏览器 AI agent 相比传统应用商店有四个关键优势。第一个是任务导向而非应用导向。传统模式下,用户需要知道应该使用哪个应用来完成某个任务,但在 agent 模式下,用户只需要表达目标,agent 会自动决定需要访问哪些网站、执行哪些操作。这大大降低了用户的认知负担。第二个是上下文感知能力。浏览器 agent 能够访问用户的账户信息、浏览历史和偏好设置,从而提供更加个性化和高效的体验。它们可以登录网站、填写表单,并应用用户特定的数据来完成复杂任务。第三个是开发者门槛更低。开发者不再需要为每个平台维护原生应用,他们的服务只需要是一个网站,agent 就能与之交互。这降低了进入门槛,创造了一个更加开放的生态系统。第四个是打破了数据孤岛。当前的应用商店模式创造了无数个"围墙花园",应用之间难以互相通信。而浏览器 agent 天生就是为了连接这些服务而设计的。用户可以让 agent 在亚马逊上研究某个产品,然后与其他电商网站比价,这在传统应用模式下会非常繁琐。
Kernel 解决的核心问题
虽然浏览器 AI agent 的概念听起来很美好,但实际构建这样的系统却面临巨大挑战。这正是 Kernel 要解决的核心问题。我发现很多开发者想要构建 AI agent,但却在基础设施层面遇到了各种障碍:性能不稳定、运行时间不可靠、定价不合理、身份认证复杂、权限管理混乱,以及一个本来就不是为 agent 设计的互联网世界。
Kernel 的联合创始人兼 CEO Catherine Jue 在 Cash App 领导工程团队时就亲身体验过这些痛点。当时开发者想用 agent 来大规模测试商户合作伙伴的网站,但却发现自己被基础设施的限制卡住了。这段经历让她意识到,如果想让浏览器 AI agent 真正普及,就必须有一个可靠、高性能、易用的基础设施平台。于是她与联合创始人兼 CTO Rafael Garcia 一起创立了 Kernel。值得一提的是,Rafael 之前联合创立了教育身份基础设施平台 Clever,在构建安全的身份系统方面有着丰富的经验,这对于 Kernel 要解决的问题来说是完美的技能组合。

Kernel 提供的是浏览器即服务的 API,让 AI agent 能够像人类一样使用互联网。我认为他们最厉害的地方在于三个方面。第一是速度。Kernel 可以在毫秒级启动浏览器,这对于需要快速响应的 agent 应用至关重要。想象一下,如果用户让 agent 帮忙查询信息,却要等上好几秒才能启动浏览器,那用户体验会有多糟糕。第二是可观察性和可控性。Kernel 提供了实时视图和回放功能,让用户可以看到他们的 agent 在做什么,并在需要时接管控制。这解决了很多人对 AI agent 的信任问题——你可以随时看到 agent 在执行什么操作,如果发现不对劲可以立即干预。第三是身份认证系统。Kernel 是第一个推出认证平台的公司,允许消费者授予 agent 特定的、受控的权限来代表他们行事。这是一个巨大的突破,因为它解决了 agent 经济中最核心的安全和信任问题。
从实际应用来看,Kernel 已经被很多公司用于生产环境,包括 Cash App、Rye 以及无数 YC 支持的创业公司。这些公司选择 Kernel,正是因为它提供了最快速和最可靠的浏览器基础设施。对于任何想要构建 AI agent 的开发者来说,Kernel 已经成为不可或缺的工具。
浏览器 AI Agent 能做什么
理论说得再多,不如看看实际能做什么。我发现浏览器 AI agent 的应用场景比我最初想象的要广泛得多。让我分享几个最有意思的使用场景,这些都是 Kernel 团队观察到的真实案例。
第一个场景是自动化研究和数据收集。与其手动访问几十个网站收集信息,浏览器 agent 可以自动跨多个平台搜索新的职位发布、收集电商网站的产品定价、实时追踪竞争对手网站的变化。Kernel 有一个用户同时运行了超过 10 个并行 agent,专门抓取特定行业内公司的职位信息。在过去两个月里,他们已经运行了超过 1000 次,每周节省了好几个小时的时间。这种规模化的信息收集能力是人工完全无法企及的。

第二个场景是潜在客户发现和数据丰富化。销售和营销团队可以用浏览器 agent 来爬取目录或活动参会者名单以识别新的潜在客户、从网站或 LinkedIn 拉取公开信息来丰富 CRM 数据、监控竞争对手的客户列表。有一个很好的例子叫 OrangeSlice,他们使用 AI agent 自主寻找产品或服务的潜在新客户,到目前为止已经启动了超过 10000 个 agent。这种自动化的客户开发方式,让销售团队可以把时间花在真正有价值的客户沟通上,而不是花在枯燥的潜客搜索上。
第三个场景是工作流程自动化。可以把浏览器 agent 想象成开放网络的 Zapier。它可以登录门户网站自动下载发票、定期提交表单或上传数据、在没有集成的应用之间同步数据。这些都是每个公司都希望能"设置后忘记"的无聊重复性任务。Kernel 有一个用户专门用 agent 来处理政府表格的填写和提交工作。这种繁琐的行政工作往往耗费大量人力,但对公司运营又至关重要,用 agent 来自动化处理再合适不过了。
第四个场景是质量保证和测试。软件团队可以使用浏览器 agent 在类似生产环境中运行端到端测试、模拟不同地理位置的真实用户行为、24/7 验证关键工作流程(如注册、结账)是否正常工作。有一个很好的例子是 Momentic AI,它就像拥有一个专门为你测试 QA 的 AI 员工。对于需要确保用户体验始终如一的公司来说,这种持续监控能力非常宝贵。

第五个场景是 AI 驱动的体验。这可能是最令人兴奋的前沿领域:将大语言模型与浏览器 agent 结合。Agent 可以阅读页面、总结内容,然后根据内容采取行动。它们可以比较多个来源、进行推理并产生洞察。它们就像一个 AI 驱动的实习生,能够跨网络执行多步骤任务。这些场景往往能做出一些在 Twitter 上疯传的酷炫演示:看着浏览器 agent 完成一个任务或工作流程,然后把结果反馈给你。
为什么现在是浏览器 AI Agent 的关键时刻
我一直在思考,为什么浏览器 AI agent 会在现在这个时间点爆发。回顾历史,我们可以看到一个有趣的对比。当苹果推出 iPhone 和 App Store 时,市场先来,技术后到。一开始的应用都很简单,随着时间推移,开发者逐渐探索出平台的潜力,创造出了变革性的体验。而浏览器 AI agent 的发展顺序恰恰相反:技术先到,市场后来。
现在的技术已经完全成熟了。大语言模型可以实时生成代码,基于视觉的网络 agent 可以像人类一样与互联网交互,计算机使用 agent 可以接管点击操作。所有这些能力的组合,让浏览器 agent 能够真正像人类一样浏览、点击、填表、抓取数据并与网站交互。而且这些 agent 可以在云端 24/7 运行,可以无限扩展,可以通过代码进行编排。技术基础已经搭建完成,现在缺的只是生态系统的形成。

有人可能会问:既然说浏览器 agent 是新的应用商店,那这个"商店"在哪里?我想看到一个集中式的市场,里面有成千上万个新的浏览器 agent 可以浏览。老实说,目前的答案是这些浏览器 agent 散落各处。还没有统一的应用商店,没有可搜索的数据库,没有一个单一的仓库来存放所有正在运行的 agent。
但我认为这种分散恰恰是这场新运动的特别之处:没有看门人,没有围墙花园,多个群体之间的健康竞争促进了越来越多 agent 的构建。随着时间推移,我们预计会看到针对浏览器 agent 的库、模板,甚至市场的出现——就像应用商店有分类、评论和评分一样。想象一下浏览一个"预构建 agent"目录,这些 agent 可以帮你预订航班、对账费用或监控竞争对手。
OpenAI 确实有一个 GPT 店面,其他 AI 市场也存在。但我相信真正的生态系统还没有完全形成。这与 iPhone 的发展轨迹不同,但并不意味着它不会到来。事实上,这种有机的、去中心化的发展方式可能会创造出一个更加开放、更加创新的生态系统。
Kernel 的战略布局
从 Kernel 的产品路线图来看,他们对未来有着非常清晰的愿景。这次 2200 万美元的融资让他们有资源加速产品开发并支持客户的扩展需求。我特别关注他们正在推进的几个关键方向。
第一个是 Kernel Agent Authentication,这是一个身份和权限层,让开发者能够安全地授权 agent 代表最终用户的账户采取行动,并提供完整的可审计性和范围控制。这使得 AI agent 能够在生产环境中运行,并享有与任何其他受信任系统组件相同的安全保证。我认为这是浏览器 AI agent 生态系统中最关键的一环。没有这样的认证系统,agent 就无法真正被信任去处理敏感信息或执行重要操作。有了这个系统,企业才能放心地让 agent 访问内部系统、处理客户数据或执行财务交易。

第二个是支持 Computer Use agent。Kernel 正在与客户合作,通过让 Computer Use 更快、更可靠、具有更好的可观察性来推动整个行业向前发展。Computer Use 是一个相对新的概念,它允许 AI 不仅与网页交互,还可以控制整个计算机界面。想象一下,一个 agent 不仅可以浏览网页,还可以打开本地应用、操作文件系统、运行命令行工具。这大大扩展了 agent 的能力范围,但同时也对基础设施提出了更高的要求。Kernel 在这个领域的投入,将帮助开发者构建更加强大的 agent 应用。
第三个是扩展 Model Context Protocol 支持。MCP 是一个让大语言模型能够像调用其他工具一样访问浏览器的协议。Kernel 正在扩展对 MCP 的支持,让集成变得更加简单和标准化。这对于构建复杂的 agent 系统非常重要,因为它允许不同的组件无缝协作。一个 agent 可能需要结合多种能力:理解自然语言、访问浏览器、调用 API、处理数据等。MCP 提供了一个统一的框架来编排这些能力。

第四个是与终端网站的合作伙伴关系。Kernel 正在与网站合作,让它们能够选择加入、检测并塑造 agent 如何与它们交互。我认为这是一个非常前瞻性的举措。随着越来越多的 agent 访问网站,网站所有者需要一种方式来管理这些自动化流量。一些网站可能欢迎 agent 访问,因为它能为用户提供更好的服务;而另一些网站可能希望限制或指导 agent 的行为。通过与网站建立合作关系,Kernel 正在构建一个对所有参与方都公平和可持续的生态系统。
所有这些努力都指向 Kernel 的更广阔愿景:成为操作系统级别的基础设施平台,让经过授权的 AI agent 能够安全地与网络交互。这不仅仅是提供浏览器即服务,而是构建整个 agent 经济的基础层。
我对浏览器 AI Agent 未来的思考
当我回顾 iPhone App Store 的早期发展时,我发现一个有趣的现象:最初的应用都很简单——手电筒、待办事项列表、小费计算器。但随后出现了 Uber、Instagram 和 TikTok,这些应用重新定义了整个行业。我们现在正处于浏览器 agent 发展的同样阶段。目前,我们看到早期采用者构建数据管道、自动化流程和 QA 套件。但下一代公司将构建完全由浏览器 agent 驱动的产品——它们会像今天的打车服务一样不可或缺。
我认为浏览器 AI agent 会催生全新的商业模式。想象一下,未来可能会出现专门的"agent 服务提供商",他们不是开发传统的软件产品,而是提供可以被其他 agent 调用的服务 agent。这些服务 agent 可以专精于某个特定领域,比如法律文档处理、财务分析或市场研究。其他开发者可以通过 API 调用这些服务 agent,就像今天调用云服务一样。这将创造一个多层次的 agent 生态系统,不同层次的 agent 相互协作,共同完成更复杂的任务。

另一个我看好的方向是个人 agent 助理的普及。现在的 AI 助手大多是通用型的,它们试图回答所有人的所有问题。但随着浏览器 agent 技术的成熟,我相信每个人都会拥有自己的个性化 agent,这些 agent 了解用户的偏好、习惯和需求,能够主动帮助用户处理日常事务。比如,你的 agent 可能会在你收到航班延误通知后,自动为你查找替代航班、重新预订酒店并调整行程。或者在你的信用卡账单出现异常消费时,自动帮你联系银行并启动争议流程。这种级别的自动化和个性化服务,在没有浏览器 agent 的时代是不可能实现的。
我也思考过浏览器 agent 可能带来的挑战。隐私和安全无疑是最大的担忧。当 agent 能够访问用户的账户、浏览历史和个人信息时,如何确保这些数据不被滥用?如何防止恶意 agent 窃取用户信息或执行未经授权的操作?这就是为什么 Kernel 的认证系统如此重要——它提供了一个框架来管理权限和审计 agent 的行为。但整个行业还需要建立更多的标准和最佳实践,来确保 agent 经济的健康发展。
另一个挑战是网站对 agent 的接受度。一些网站可能会把 agent 视为威胁,担心它们会给服务器带来过大负载或破坏现有的商业模式。这就是为什么 Kernel 与网站建立合作关系如此重要。只有当网站所有者、agent 开发者和最终用户之间建立起互信和合作关系,浏览器 agent 生态系统才能真正繁荣。我相信随着时间推移,越来越多的网站会认识到 agent 带来的价值——它们可以帮助用户更高效地使用服务,从而提高用户满意度和粘性。

从投资角度看,Kernel 这轮融资的投资人阵容本身就说明了很多问题。Accel 领投,这是一家投资过 Facebook、Slack、Dropbox 等改变行业游戏规则的公司的顶级 VC。Y Combinator 的参与不用多说,他们孵化了无数成功的创业公司。更有意思的是那些天使投资人:Paul Graham 是 Y Combinator 的创始人,Solomon Hykes 创立了 Docker,David Cramer 创立了 Sentry。这些人都是构建了过去十年最重要开发者平台的传奇人物。他们选择投资 Kernel,说明他们相信浏览器 agent 代表着软件基础设施的下一个重大转变。
特别值得一提的是 Catherine Jue 的背景。我了解到她曾经是跆拳道世界冠军,这种全力以赴的精神正是创业成功所需要的。Accel 的合伙人 Daniel Levine 提到,他认识 Catherine 已经很长时间了——她和 Scale AI 在同一个 Y Combinator 批次,那对他来说是个幸运的批次。Daniel 特别强调了 Catherine 的深度、思考力和全力投入的态度。这些品质,加上 Rafael 在构建安全身份系统方面的专业经验,让他们成为构建最佳浏览器 agent 基础设施的完美团队。
最后,我想说的是,如果你是开发者、创始人或产品思考者,现在正是进入这个领域的最佳时机。平台转变已经到来,而最有意思的应用还没有被构建出来。第一代 iPhone 应用很简单,真正改变世界的应用是后来才出现的。浏览器 agent 也是一样。现在我们看到的只是冰山一角,真正的创新还在后面。
文章来自微信公众号 “ 深思圈 ”
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md