研究预测 2025 年中期 35% 新网站内容将由 AI 生成

9282点击 2026-05-24 15:32

朋友们，我想请你做一个小实验。

打开你的手机浏览器，随便搜一个你最近想知道的问题——"什么护肤品好用"、"宝宝咳嗽怎么办"、"2026年最值得买的SUV"。

点开前三个结果。

现在我问你：你确定写这些内容的是一个人吗？

不是"AI辅助"那种——人写提纲、AI润色。

是完全、从头到尾、没有一个人类手指敲过键盘的那种。

你不知道。我也分不出来。

而斯坦福刚发表的一项研究告诉我：你现在读到的每三篇网页里，就有一篇已经不是人写的了。

你在网上看到的东西，35%已经不是人写的了——而且你分不出来

从零到35%，只用了三年

先把这个研究说清楚。

上个月，斯坦福大学、伦敦帝国理工学院和互联网档案馆（Internet Archive）联合发表了一篇论文。他们干了一件以前没人干过的事——

用互联网档案馆的 Wayback Machine，把 2022 年到 2025 年全世界新发布的网页，抽了一个代表性样本出来。

然后用目前最准的 AI 检测工具 Pangram v3（芝加哥大学 2025 年 12 月独立测试认定的第一名，误报率接近零）——一个个扫过去。

结论是：到 2025 年年中，全球 35.3% 的新发布网页是 AI 生成或 AI 辅助的。

其中 17.6%——将近五分之一——从头到尾没有一个字是人写的。

三年前，这个数字是零。

你在网上看到的东西，35%已经不是人写的了——而且你分不出来

2022 年 11 月 30 日，ChatGPT 发布。从那一天起，一条曲线从零开始，几乎垂直拉升，在不到三年时间里淹没了互联网三分之一的"新土地"。

做这个研究的 Jonáš Doležal 是斯坦福的 AI 研究员。他的原话是——

"I find the sheer speed of the AI takeover of the web quite staggering."

翻译一下：互联网用了几十年才建成今天的样子。AI 用了三年，就拿走了三分之一。

不只是"量"——连"味"都在变

你可能想：AI 写的就 AI 写的吧，内容有用就行。

但研究还发现了两个更微妙的东西。

你在网上看到的东西，35%已经不是人写的了——而且你分不出来

第一，AI 写的内容，语义多样性在下降。

什么意思？

就是 AI 写的东西，越来越"一个味儿"。不管你看的是 A 网站还是 B 网站、中文还是英文——当背后都是同一类模型在生成时，它们用的句式、论证方式、甚至"语气"，正在趋同。

你以为你在看三个不同来源的观点。其实你在看同一个 AI 的三遍回响。

第二，AI 写的东西，情绪越来越"积极"。

研究发现，AI 生成的文本比人类写的更"阳光"、更正面。

听起来挺好的对吧？但你想一想——

当你搜"这个理财产品靠谱吗"，你需要的不是一篇"整体来看这个行业还是很有前景的"的废话。你需要的是一个踩过坑的人告诉你"别买，我亏了 8 万"。

AI 不亏钱。AI 没有踩过坑。

它给你的"正面"，不是乐观，是没有经历过的空白。

而且——你确定你看到的只有 35%？

35% 是斯坦福 2025 年年中的数据。现在已经是 2026 年 5 月。

另外几个数字，你一起看：

• Cloudflare 报告：过去一年，全球近三分之一的互联网流量来自 bot，不是人。
• Imperva 安全报告：2024 年，互联网上自动化流量首次超过了人类流量。历史上第一次，网上活动的"大头"不是人。
• Graphite Analytics 报告：超过 50% 的新在线文章现在是 AI 生成的。

35% 是网页。50% 是文章。超过一半的流量不是人。

这不是未来。这就是你现在打开手机、连上 Wi-Fi 的那一刻。

互联网档案馆，快跟不上了

再讲一个被忽略的细节。

这次研究之所以能做，是因为互联网档案馆的 Wayback Machine 一直在存档全世界的网页——像一个巨大的数字图书馆，把人类互联网的每一页都拍快照存下来。

但现在，AI 生成网页的速度，超过了互联网档案馆存档的速度。

不是超过一点点。是数量级上的碾压。

人类写手一天写两篇、三篇。AI 一秒生成一百篇。

档案馆的爬虫程序是为人写内容的节奏设计的——每天新网页慢慢增长，一项一项存。

现在面对的是 AI 的"内容洪流"。

研究团队在论文里写了一句话，我看了之后一直在想：

我们正在失去记录"人类互联网"的能力。

不是因为技术不行。是因为机器写得比我们存得快。

想象一下：一百年后的历史学家想研究 2026 年的人类在互联网上聊什么、关心什么。他们打开数字档案——

看到的可能一半是 AI 自己跟自己说的话。

这跟你有什么关系？

好，你可能会想：这听着像是个"互联网生态"的大问题，但跟我有什么关系？

有关系。三个。

你在网上看到的东西，35%已经不是人写的了——而且你分不出来

第一个。你搜到的"攻略"，可能是 AI 编的。

你搜"宝宝发烧39度怎么办"，前三条可能都是 AI 生成的育儿攻略。它写得条理清晰、语气温柔、看起来非常专业。

但它从来没有照顾过一个发烧的孩子。

你敢照着做吗？

第二个。你看的"评论"，可能没有一个是真人。

你买一个东西前会看好评差评对吧。

但现在已经有了专门生成"真实感评论"的 AI 工具。它会模仿真人说话的瑕疵——加个"～"、故意打错一个字、说"用了一个月才来评价"。

你信了。

第三个——也是最让我不舒服的。你正在失去"知道真假"的能力。

当你读到的内容 35% 是 AI 生成、50% 的文章不是人写的、评论可能是假的——

"真"和"假"的边界，正在从你的生活里消失。

不是未来。是现在。是刚才你刷到的那条推送。

怎么办？三个"尽量"

你在网上看到的东西，35%已经不是人写的了——而且你分不出来

说实话，这个问题没有一个完美的解决方案。但我有三个"尽量"，供你参考：

尽量看"有名有姓"的人写的东西。

一个真实的人，有履历、有社交账号、有被批评过的记录——比一篇匿名但"看起来很专业"的文章靠谱一万倍。

尽量在买东西、做决定、查健康信息前，多看一个信源。

如果三个来源说了一模一样的话，用了一模一样的句式——警惕。真人不会那么整齐。

尽量记住：免费的内容，背后总有人买单。

如果一篇文章不是人写的、但免费给你看——那它为什么在那里？为了 SEO 排名？为了卖广告？为了影响你对某件事的看法？

问自己这个问题。答案不会让你舒服，但会让你清醒。

互联网没有死。

至少现在还没有。

但当 35% 的内容已经不是人写的、当这个数字还在以月为单位增长、当档案馆都存不过来的时候——

我们确实正在失去一些东西。

不是失去"互联网"。是失去"在网上遇到另一个人类的确定感"。

文章来自于微信公众号 “一粟萤火 AI”，作者 “一粟萤火 AI”

关键词: AI新闻 , AI研报 , 人工智能 , Internet Archive

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库，它利用大型语言模型和直接图逻辑来增强爬虫能力，让原来复杂繁琐的规则定义被AI取代，让爬虫可以更智能地理解和解析网页内容，减少了对复杂规则的依赖。
项目地址：https://github.com/ScrapeGraphAI/Scrapegraph-ai