这个Skill让AI突破了反爬虫检测，最后一块短板补上了

10985点击 2026-06-11 00:44

如何让 Agent 把浏览器用得更 6，一直是一个还没有完美解答的课题。

周末躺床上刷 GitHub trending，看到一个项目名字叫 BrowserAct。

简介写着：AI Agent 操作真实浏览器。

我第一反应是……这不早就被 Codex 的 Chrome 扩展杀死比赛了吗？

Codex 那个扩展最近都在高频使用。截图、点击、填表、跳转、读 DOM，跟给 AI 安了一双会操作浏览器的手，特别是看到很多玩法的链接，我直接就丢给它，有好几次我连网页都懒得自己翻，直接丢给 Claude 让它帮我去跑。

就这，你再搞个独立的浏览器自动化项目，图啥？

我直接把链接甩给了 Claude，问它：这东西跟 Codex 上的 Chrome 扩展有啥区别？存在还有意义吗？

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

Claude 一通输出，看完，我算是明白了。

我之前的理解，确实浅了。

不是能不能

先说结论：Chrome 扩展和 BrowserAct，根本不是同一层的东西。

Chrome 扩展是个通用浏览器控制工具。它能干啥？看到当前页面，点元素，填表单，跳转导航，执行任意的浏览器操作。能力是通用的……AI 想干啥都行。

但问题就出在「都能干」这三个字上。

因为它什么都能干，所以它什么坑都不防。

你瞅瞅这几个场景：

拿它去爬 Amazon 畅销榜？Cloudflare 五分钟就把你拦了。

登录之后 session 半路失效？它就傻在那。

页面 DOM 直接喂给 LLM？90% 是垃圾 HTML，token 烧得飞起还不一定出活。

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

需要同时跑十个账号？对不起，没有并发支持。每个账号还得保持不同的登录态和网络出口？更没戏。

说白了，通用工具有手，但没经验。

BrowserAct 不一样。

它针对真实生产环境里最要命的那几个麻烦……反爬检测、会话中断、Token 噪声、多账号串线……分别写了专门的防御性处理逻辑。

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

打个比方：

Chrome 扩展 = 会开车的司机。什么路都能开，油门刹车方向盘全会。

BrowserAct = 熟悉每条路的导航 + 专门的货运许可证。知道哪个路口有摄像头、哪段路常年修路、到了关卡拿什么证件能过。

一个有手，一个有经验加地图。缺了哪个，你都跑不远。

一句话：通用工具解决「能不能」，BrowserAct 解决「在真实世界里稳不稳」。

它的场景在哪儿？在那些你真正想让 AI 干点正经活、但几乎每次都会半路被各种意外卡死的地方。

这两天，我拿这个 Skill 直接上手跑了几个案例，你就明白这玩意的威力了。

批量抓取小红书笔记

我先安装了 BrowserAct。

安装过程很简单很多。不需要配环境、不用折腾依赖，直接在对话框里输入它的 GitHub 地址：

github.com/browser-act/skills/tree/main/browser-act

然后说一句「我想安装这个 skill」，就完成了。前后不到一分钟。

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

装好之后，我决定拿小红书来测试它的抓取能力。说实话，小红书是有门槛的……人机验证这一块一直比较棘手，对自动化工具的检测很敏感。但正因为有门槛，才更能测出它的真实水平。

我输入了关键词「AI Agent」「浏览器自动化」「AI 自动化」，让它直接去小红书搜索并抓取数据。

输入关键词后，让它直接去小红书搜索并抓取数据：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

它直接调用了我在本地的 Chrome 浏览器，复用我原有登录状态的前提下直接操作浏览器。

整个过程中，它操作的就是我自己的浏览器，不是我专门为自动化另开的一个。

最终它成功抓到了 84 条数据，包含了公开笔记的标题、互动数据、作者信息和发布时间。

最终抓取到 84 条数据，包含标题、互动数据、作者和发布时间：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

更让我惊喜的是，它不只是把数据扔给我就不管了。它根据抓取到的 84 条数据，自动生成了一份分析报告，对内容角度、互动趋势做了归纳和总结。对于我们日常做运营的人来说，这种「抓数据 + 出报告」的闭环，确实省了不少时间。

基于抓取结果自动生成的数据分析报告：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

多平台文章同步分发

第二个案例，我拿我最新发的一篇公众号文章来测。

目标是：把这篇公众号文章抓取下来，然后分发到小红书、知乎和抖音三个平台。

它先从公众号路径抓取文章内容。在这个过程中，它也检测到了平台的验证机制，但成功完成了验证。

拿到了文章全文，包括图片。它把文字内容全部提取下来，把图片打包下载。

从公众号成功抓取到文章全文及图片：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

接着，它分别进入了小红书、知乎和抖音三个平台的创作后台，把文章内容按照每个平台的风格改写之后，填入标题、正文、标签和简介，连图片也一并上传到了各个平台。

文章被同步分发到小红书、知乎、抖音三个平台的后台：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

最终，三篇文章全部保存到了对应平台的草稿箱里。

三篇文章全部保存到了对应平台的草稿箱：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

发布前停住，等着我来审核。

这一轮考的不是一次性的抓取，而是执行层的完整操作流，在真实网页里像人一样走完多步骤操作。

从抓取到改写，从登录后台到填入内容再到上传图片，每一步都踩在真实的生产环境里。

这一轮下来，有三层能力在背后支撑。

第一层是环境层：stealth 浏览器把自动化痕迹隐藏起来，指纹伪装让它看起来像一台正常设备。

第二层是执行层：在真实浏览器里完成搜索、滚动、提取、整理、总结的完整流程。

第三层是人机接力层：检测到验证码之后不硬闯，而是让人接管一次，完成后再继续执行。

但有一说一，它不打包票。它只是把被卡住的概率降到了最低，并且在卡住的时候有兜底方案。

多账号多IP登录

第三个案例测试的是多账号隔离。

我首先问它如何配置一个隐私浏览器。它给了我两个方案：第一个是使用现有的静态 IP 地址配置到现有的浏览器上，第二个是购买一个新的静态地址。

BrowserAct 给出了两个配置隐私浏览器的方案：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

出于好奇，我选了第二个方案。让它给我一个购买方式，它直接发了一个购买链接过来。我顺着链接买了一个静态 IP 地址，然后按照指引把它配置到了一个新的浏览器身份上。

配置完成之后，我有了两个独立的隐私浏览器，各自配置了不同的静态 IP 地址。

两个独立的隐私浏览器，各自配置了不同的静态 IP 地址，可以同时登录不同账号互不干扰：

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

这样一来，我可以在同一个网站上同时登录两个不同的账号，各自独立操作。浏览器负责身份，Session 负责具体任务。谁也不会串到谁那边去。

对于经常需要做多账号运营的人来说，这个能力挺实际的。不用在一个浏览器里反复切换账号，不用担心登错号发错内容。每个账号都是独立的浏览器身份、独立的 Cookie、独立的登录态、独立的网络出口。

这里有个细节。静态代理在今天不算什么新奇功能，很多工具都有。

但在 BrowserAct 的设计里，它不是被当成一个单独卖点来吹的，而是「长期账号稳定身份」这个体系的一环。你的每个账号以稳定、统一的身份持续访问网站，风控系统看你就跟看一个正常用户一样。

还能沉淀

除了上面三层，还有一个能力值得单独说：Skill Forge。

Skill Forge 本身是一个 skill，安装之后，你只需要用自然语言向它描述你的需求比如:我需要一个能每天自动抓取小红书指定关键词数据并生成报告的skill。

Skill Forge 会自行进行方案探测，研究目标网站的页面结构和交互逻辑，然后输出一套执行方案，接着自己跑通测试，验证可行之后，最终输出一个可以直接调用的 Skill。

这跟很多人理解的「把跑过的流程录制成脚本」不太一样。它不是录制回放，而是让一个专门的 skill 去帮你研究和生成新的 skill。你只需要描述目标，方案探测、测试验证这些脏活累活它自己干了。

这就从「每次都是一次性折腾」变成了「能力持续积累」。

多 Session 并发也同样支持。不同的任务放在不同的 Session 里同时跑，互不干扰。

有一说一，你得搞清楚它的能力边界。

它可以做到的是：真实浏览器控制、反检测浏览器环境、静态代理支撑长期身份稳定、遇到验证码时人机接力、多任务并发不串线、多账号独立身份隔离、跑通的流程沉淀成可复用 Skill。

但它做不到的是：保证百分百过验证码、保证账号永远不会被封、自动绕过所有平台风控、所有流程完全不需要人看、买一个代理就能一劳永逸解决多账号运营。

说白了，它让你在真实的、复杂的、充满反爬和风控的网站环境里，比通用工具跑得更远、活得更久、卡住有兜底。不是替你把所有难题都消灭了。

这世界上当然没有这种东西。

能兜底的，已经比什么都兜不住强太多了。

结语

回到开头那个疑问。

Chrome 扩展把 AI 能不能点网页这件事解决了。但它解决不了 AI 能不能稳定地进入真实网站，把活干完，中间不翻车这件事。

这两个问题，听起来像是一件事，实际上是两层。

通用工具给 AI 安了一双手。BrowserAct 给这双手配上了经验、地图、应急方案和多线作战能力。

用大白话说，你考了驾照，会踩油门打方向盘，跟你真能在晚高峰、下大雨、到处修路绕道的城市里把一车货准时送到，是两码事。

能开不算本事。

能送到，才算。

如果你也跟我一样，已经在用 AI 做浏览器自动化，或者正打算入坑……这个项目，值得你花半小时看一眼 GitHub。

说不定看完你也会觉得：哦，原来之前卡住的地方，不是 AI 不够聪明，是缺了一层底。

文章来自于微信公众号 “网罗灯下黑”，作者 “网罗灯下黑”

AI新闻 BrowserAct AI操作电脑 GUI AI爬虫 AI操作浏览器

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库，它利用大型语言模型和直接图逻辑来增强爬虫能力，让原来复杂繁琐的规则定义被AI取代，让爬虫可以更智能地理解和解析网页内容，减少了对复杂规则的依赖。
项目地址：https://github.com/ScrapeGraphAI/Scrapegraph-ai