“免费午餐”时代终结,​AI巨头要交“过路费”了?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
“免费午餐”时代终结,​AI巨头要交“过路费”了?
6171点击    2025-07-03 11:36

“免费午餐”时代终结,​AI巨头要交“过路费”了?


马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到2.0时期。和这对欢喜冤家类似的,是国外出版商集团和AI巨头之间的相爱相杀——一方面有大出版商要和AI公司合作,另一方面也有出版商誓死要把AI巨头告破产。


根据数据,AI搜索和ChatGPT出现后,全球网站流量都在下降;另一方面,AI巨头的“AI爬虫”却不顾爬虫协议,以数万次的爬取不断侵蚀所有网站的数据。


这时候,终于有一家基建公司站了出来,挽着内容创作者的手说:“我们可以对AI巨头说不!”


Cloudflare,这家掌控全球约20%网络流量的互联网基础设施巨头,被网民誉为“赛博菩萨”的公司,在2025年7月上线了一个实验性产品和交易市场:“Pay Per Crawl”——给AI爬虫立下了新规矩:


要么获得许可,要么付费


简单来说,这个功能的本质是给网站内容创作者一个选项“开关”:可以选择允许AI爬虫自由访问,按次爬取收费,抑或者直接封锁访问。


按照Cloudflare创始人的说法,“内容是驱动AI引擎的燃料,因此,内容创作者直接获得报酬才是公平的。”


对AI公司来说,想继续抓取全网内容来训练模型,不能再像以前那样“免费吃大餐”。但也不是没有好处,因为根据明码标价付费,可以避免版权争议问题。


Cloudflare这次的“防虫”举措,能缓解AI爬虫的肆意攻击吗?更重要的是,这家公司能否利用自己独特的地位,建立起一个全新的AI时代内容分发和变现模式


AI巨头的“免费午餐”


过去几十年,大多数网页默认是公开“可爬”的。谷歌、Bing这类搜索引擎为网站带来流量,有了流量,网站再通过广告或销售订阅变现——这是搜索时代的隐形契约。


可AI时代,传统搜索流量骤降,这笔账越算越亏。


AI公司把全网内容当作训练燃料,却几乎不用给大部分创作者回报。当用户直接在AI聊天机器人里提问,答案往往来源于总结好的内容,而不是数十个蓝色链接,不会给网站带来更多流量。


甚至于谷歌这样的搜索巨头本身也在变化,以前他们提供网站链接列表,如今他们在搜索页面推出了“人工智能概述”,据他们的报告,75%的查询用户无需点击任何链接就得到了解答。


Cloudflare 2025年7月的最新数据显示:谷歌的爬虫大约每6至7次抓取给网站带回1次点击,而OpenAI则是1500次才换来1次跳转,Anthropic的比例甚至更夸张,高达73300次换1次


“免费午餐”时代终结,​AI巨头要交“过路费”了?

各大公司AI爬虫每次抓取为网站带来的点击比例|图片来源:Cloudflare


这意味着,传统的“内容换流量”模式失效了。相比传统搜索引擎,AI巨头们吃掉了海量网站内容,却不给“导流”,这种失衡让一些内容生产者愈发难以为继。


“有了OpenAI,网站流量获取难度比谷歌时代高出750倍,而有了Anthropic,难度更是高达3万倍。原因很简单:我们越来越不再消费原创内容,而是消费它们的衍生品。”Cloudflare CEO Matthew Prince在一篇博文中称,“这不是一个公平的交易”。


AI公司爬数据也不是没有代价的,这两年AI巨头一直被指控“偷内容”来训练大模型,引发全球范围的版权诉讼潮,尤其是纽约时报等新闻机构和OpenAI诉讼不断。


“免费午餐”时代终结,​AI巨头要交“过路费”了?

活跃的大厂AI爬虫机器人|图片来源:Cloudflare


因此,Cloudflare推出“Pay Per Crawl”,建立一个“按次付费爬取”的市场,想要解决的正是这个问题。


该公司设计了一个权限和支付系统,网站可以在后台选择对AI爬虫“允许、封锁或收费”,AI爬虫如果想抓取该网站内容,必须注册、验证身份,并在每次访问时完成支付。


如果顺利,这一模式能让网络内容从“广告变现”走向“内容授权变现”,开拓全新的收入来源。无论是大媒体,还是冷门小博客,都能在AI时代拥有议价权,被AI付费使用。


为了强调其意义,Cloudflare CEO还将“Pay Per Crawl”推出的这一天称为:


“内容的独立日”


AI“过路费”怎么收?当然,设想很美,但技术怎么落地?


Cloudflare这家公司起家靠的是提供CDN、DDoS防护、DNS、零信任安全等服务,它在全球300多个城市部署了节点,承载约20%的Web流量,给它当“中介”提供了方便。


“Pay Per Crawl”建立在它全球CDN网络的中间层:它能在访问请求进到源站前就识别和处理AI爬虫。站长可以在Cloudflare后台设定三种模式:允许、收费、封锁。


所有新加入Cloudflare的网站默认封锁AI爬虫,除非站长主动允许。只有与Cloudflare建立合作关系的AI公司才能参与支付机制,否则将被封锁。


如果AI爬虫向付费URL发起请求,尚未付费,Cloudflare就会返回HTTP 402 Payment Required状态码——一个过去几乎没人用的、专门为“网络支付”预留的状态码。AI爬虫可以在请求里带上支付信息,以表示同意支付配置的价格,一旦匹配价格就放行返回200 OK,并自动结算。


Cloudflare本身则是这个交易的“收银台”,负责聚合账单和分发收益


更重要的是,这并不是靠简单的User-Agent欺骗就能绕过的。Cloudflare要求AI公司注册密钥,用数字签名保证身份。这也是为了防止“山寨爬虫”冒充合规者逃避支付。


过去,robots.txt是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎的爬虫哪些页面可以抓取,哪些不可以,但它只是网站的“礼貌建议”,很多AI爬虫根本不理会。Cloudflare的方案改变了这一点,把现有的、靠robots.txt的“软约束”变成了“硬闸门”。


不过,据Cloudflare称,目前排名前10000的域名中,只有约37%拥有robots.txt文件


如果要参与Cloudflare的爬取付费市场,爬取方、被爬取方都必须开设Cloudflare账户。截至目前,“Pay Per Crawl”仍处于内测阶段,仅部分大型出版商参与,如BuzzFeed、《大西洋月刊》和《财富》等,Cloudflare还在持续公开征集有意向的内容创作者和抓取者。


“我们预计按次付费模式将迎来显著发展。”Cloudflare官方称。


虽然目前仍处于初期阶段,但该公司对未来还有很多设想。比如,出版商或其他机构可以针对不同内容类型收取不同费用,或者根据AI应用的用户数量进行动态定价,或者根据训练、推理、搜索等不同领域引入更细粒度的定价策略。


他们还认为,按次付费爬虫的真正潜力或许会在Agent智能代理的世界中显现


“如果智能代理付费墙能够完全以程序化的方式运作,会怎样?想象一下,你可以请你的深度研究助手帮你整理最新的癌症研究、法律简报,或者帮你找最好的餐厅——然后给这位智能代理一笔预算,用于获取最有用、最相关的内容。”


“以HTTP 402响应代码为基石的首个解决方案,将开启一个智能代理能够以程序化方式协商访问数字资源的未来。”Cloudflare称。


Internet的十字路口


从经济层面来说,这可能是AI和广大内容创作者“重新谈判分账”的开端。


现在,只有头部大媒体能和AI公司谈授权(比如纽约时报告了OpenAI后才谈成和解),绝大多数中小网站、论坛甚至个人作者都被“默默爬走”,毫无反抗的能力,或者说意识。Cloudflare的方案,实际上可以把这种议价能力普及到更广泛的网站。


据Cloudflare团队称,他们与新闻机构、出版商和大型社交媒体平台进行了数百次对话,他们一致“希望允许AI爬虫访问其内容,但希望获得报酬。”


对于支持者来说,“Pay Per Crawl”模式在理念上很“公平”:创作者有了收入,AI公司也避免了法律风险,长远看能推动整个产业走向更合规的内容许可。


当然,AI公司未必开心,互联网数据不再免费,要抓新内容,就得花钱,这意味着算力之外的成本要素。


但另一方面,这也或许会抑制滥抓取,也迫使AI模型开发者在数据上更有选择性——比如针对性购买高价值的内容,而不是一股脑地把各种网站内容都喂进模型里。


Matthew Prince称,“AI引擎就像一块瑞士奶酪,真正能够填补这块奶酪孔洞的全新原创内容,比如今占据网络大部分版面的重复性、低价值内容更有价值。”


在他看来,流量一直以来都无法准确衡量内容的价值,“如果我们能够开始对内容进行评分和评估,不是根据它产生了多少流量,而是根据它对知识的促进程度(以它填补了多少AI引擎“瑞士奶酪”中的现有孔洞来衡量)——我们不仅可以帮助AI引擎更快地进步,而且有可能促进高价值内容创作的新黄金时代。”


不过,数字权利倡导者可能会提出:小型AI创业团队、研究者、开源社区,能否承担这样的数据成本?学术研究、公益存档这些“良性爬虫”会不会寸步难行,只能访问有限、低价值的数据源?


在一个广告收益下滑、流量成本高涨的现实里,会有多少网站愿意无偿开放给AI爬虫吸血?这会不会成为“封闭化”的开始,让互联网失去它的自由与共享精神?


如果全网都默认封锁收费,这会不会无意中加剧“大厂垄断”?毕竟,大厂比较有钱。


“Pay Per Crawl”模式,一方面试图解决AI吸血内容却不反哺的问题,另一方面,也有可能在无意中加高AI创新的门槛,回到版权保护与知识开放的老命题。


当然,Cloudflare只是给网站更多自主权。网站所有者完全可以选择对公益、非营利项目继续免费开放。权力仍然在创作者手里。不管怎么说,他们值得获得“补偿”。


在Cloudflare CEO的话里,这场变革的目标是“构建更美好的互联网”。“我们尚不知道所有答案,但我们正在与一些顶尖的经济学家和计算机科学家合作寻找答案。”


目前,其他其他CDN和安全提供商(比如Akamai、Fastly、Amazon CloudFront)尚未宣布类似的功能。


虽然Cloudflare的“Pay Per Crawl”看起来只是一个CDN产品的新功能,但从某种意义上说:


它可能成为互联网走到一个分岔口的信号


在搜索时代,内容的价值是通过用户访问转化为广告收益。但AI时代,用户可能根本不会再点进网站——所有答案都在聊天机器人里总结生成。是继续让AI大模型免费挖掘网络内容,还是在数据获取上回归“互惠”原则,让创作者获得应有的补偿?补偿又能有多少?


这个早期实验可能在为一个新的AI时代数据经济形态铺路,无论成败如何,它的立场很明显:AI不能无限透支创作者的耐心,并在“开放”的名义下把人的劳动变成免费的燃料。


“网络正在发生变革,它的商业模式也将随之改变。在这个过程中,我们有机会从过去的30年里学到好的地方,让它在未来变得更好。”


至于,事情是不是能真的变好,像Cloudflare自己承认的那样:


这仅仅是个开始。”


文章来自于“极客公园”,作者“芯芯”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/