对话小宿科技：他们重新定义了AI时代的「搜索」，却拒绝卖排名

7316点击 2026-05-01 13:12

GEO服务商每天往互联网里灌多少内容？

一家中型GEO公司，在部分批量化运营模式下，月度内容产出可以达到很高规模。背后是自动发稿机、批量账号、几乎一模一样只换了平台名字的通稿。逻辑很简单，他们认为铺得越多，AI引用的概率越高。

这套打法在SEO时代有效过。今天，越来越多的人用同样的逻辑去"优化"AI——大量内容涌入互联网，专门写给模型看。

但这些内容真的能进入AI的回答吗？

对话小宿科技：他们重新定义了AI时代的「搜索」，却拒绝卖排名

AI搜索不直接从互联网取内容。中间还有一层，智能搜索引擎。

AI通过搜索引擎获取信息，经过过滤、排序、交叉验证，再组织成回答。GEO服务商灌进互联网的内容，先要过这一关，才有可能被AI看见。过不了，如果内容本身缺乏来源、增量和可信度，铺量意义会非常有限。

小宿科技做的，正是这中间那层搜索引擎。它不是给人用的搜索，是专门给AI Agent调用的智能搜索基础设施：Kimi、DeepSeek、Manus这些产品在联网搜索时，调的就是这类接口。

换句话说，GEO服务商拼命往互联网里灌的内容，最终要经过小宿这样的搜索引擎过滤，才有可能进入AI的视野。

它是这条链路上的门。

Linkworld找到小宿科技CEO杜知恒，想弄清楚这道门的规则。

一、

智能搜索如何运作？

1、逐浪：很多做GEO的人认为，把内容铺进互联网，AI就会引用。从你们这层来看，这个逻辑成立吗？

杜知恒：只成立一半。大部分AI不是直接从互联网上"捞"内容的，它是通过调用搜索引擎API来获取信息的。所以你铺进互联网的内容，首先要能进我们的索引，然后要在召回排序里胜出，才有可能出现在AI的回答里。

而且Agent调搜索的目的，跟人搜索完全不同。人搜索是在"浏览信息"——人会被标题吸引，用摘要来决定要不要点进去，所以传统搜索长期优化的是展示效率，最终服务的是点击和广告收入。但Agent调搜索，大部分情况是为了获取执行任务中所必须的信息——它可能在基于搜索做研究、写报告、定计划，或者调用其他工具继续处理。也就是说，传统搜索的终点是点击，Agent搜索的终点是任务完成。

所以搜索结果在Agent的链路里不是入口，它是链路的原材料。你优化的目标就发生了很大变化——不再是把最容易被点的链接放在前面，而是交付出一组足够完整、可信、可追溯、能被模型高效读取的内容。

2、逐浪：那到底有没有一个"给Agent用的互联网"？它是怎么建起来的？

杜知恒：其实不是两个完全独立的互联网。当今99%以上的信息，还是以传统的网页形式存在于互联网上。不管是我们还是传统搜索公司，建索引的底层方式是类似的——我们也是借用了传统搜索的方法，构建对整个世界数据知识的索引。

区别更多在于排序的哲学。传统搜索是"相关性优先"——让最容易被点的结果排在前面，背后是点击率和广告收入的逻辑。我们是"权威性优先"——因为Agent需要的是可信的原材料，不是最吸引眼球的链接。

这个演进也在反向影响内容生产。随着越来越多人意识到Agent在网上浏览，网页的生产方式会逐渐改变，让内容更容易被Agent读取。但这个过渡会非常长，人会持续在这个loop里参与。

3、逐浪：一条内容从原始网页到最终被Agent读到，为了保证它的真实性和有效性，中间经过了哪些处理？

杜知恒：第一层是召回。我们不只靠一种检索方式，既有关键词层的召回，也有语义层的召回，还会综合考虑时效性、来源质量、权威性这些信号。在学术、医疗这些重决策场景里，还会做垂直搜索的专项优化。

第二层是互补性控制。对Agent来说，你给它10条说同一件事但出处不同的内容，没有任何意义。所以我们会控制来源多样性——同一条信息重复出现再多次，在我们这里也只算一条。过去的搜索只需要相关性强，但Agent不需要这个。

第三层是输出格式。这其实是最容易适配的部分——客户要Markdown也好，要html也好，都可以，格式是好改的。关键是要分场景：有的场景时延优先，比如在chatbot里实时对话，就给短摘要；有的场景质量优先，就需要把网页、PDF这些全部读出来，给一个干净完整的长文本。本质上都是一个实时数据获取的问题。

4、逐浪：：传统搜索靠点击率做反馈闭环，但Agent不点击。没有这个数据，你们怎么优化？

杜知恒：这是做Agent搜索最核心的挑战之一。传统搜索优化很简单——我能实时看到每一类query在用户里的点击情况，CTR高就是效果好，AB测试很容易做。但对Agent来说，不管搜索结果好不好，客户都是直接拿走10条、20条，你看不到"用户点击"。

所以我们的feedback loop主要靠客户深度合作。在实际合作中，客户会基于自己的业务结果，对搜索效果提出更具体的反馈，比如某类查询的来源质量、某些场景下的信息完整度是否足够。——比如他总是抽我们第几条，说某个垂类的质量有什么问题。客户可以做自己的AB测试，通过用户有没有追问、追问的内容是不是已经回答了但回答得不好，来判断搜索质量。

这也解释了为什么Agent搜索引擎市场不会有太多玩家——客户必须足够信任你，才愿意把反馈信号交给你。我们把它比作跟卖鱼的摊贩做生意：你每天来买，久了你才会说"周四的鱼有点不新鲜"，摊贩才有动力去换供应商。这不是一个主动挑选的过程，是长期交互产生的信任。

二、

什么内容能过、什么会被挡？

5、逐浪：从数据层开始，你们具体是怎么判断内容质量的？

杜知恒：我们并不是简单判断一条内容是真是假，而是在具体任务上下文里，评估它是否具备足够的来源可信度、信息增量和交叉验证价值。从最底层开始，就在做来源和内容质量的筛选。

对话小宿科技：他们重新定义了AI时代的「搜索」，却拒绝卖排名

第一层是来源和质量分。搜索里有一个传统概念叫质量分，看的是来源权威性——是不是官方媒体、权威机构，你和最优质的网页之间有没有互相引用的关系。这个判断不是今天这一条就能决定，要看历史上被引用的次数、被官方内容cross check之后的质量，包括语言表达结构，这些都会被模型撸一遍。

第二层是信息密度和原创性。这条内容有没有真实的信息密度？有没有原始的出处？有没有信息增量？还是说它只是对已有的、而且比它发布更早的内容做了重复加工？时间戳在这里很重要。

第三层是交叉验证。拿这条内容去跟原始发布源、官方文档、论文、数据库、各种可信媒体做比对。如果一条链路全部都是转述，找不到源头，基本不可用。

6、逐浪：现在有大量"伪权威化"内容——有机构名、有专家署名、结构很规范，但缺乏真实来源。你们能识别吗？

杜知恒：这是现在最难处理的一类，因为它看起来非常专业——像专业报告，有所谓的机构出处，有所谓的专家，段落结构规范，结论写得漂亮，但缺乏真实的来源链路，信息非常浅，也没有真正的信息增量。目的就是提高被模型引用的概率。这本质上是一种新形态的SEO——骗的对象从人变成了Agent，骗的目标从"进百度首页"变成了"进Agent候选的上下文"。

骗的手法是双管齐下：一方面是伪权威化，另一方面是迎合Agent抓取的偏好——用很好的对比、很好的结论，但实际上信息非常浅，也没有真实的链路。

从来源历史、引用链路、交叉验证这几个维度，我们可以识别大部分。但坦率说，这不是一家搜索引擎能单独解决的问题。这个博弈跟过去互联网时代的对抗差不多——大家以前研究怎么进Google、百度首页，以后就研究怎么进Agent的回答里。

7、逐浪：我举个例子，比如说Token的中文译名，之前DeepSeek告诉用户叫"智元"，人民网发文定义叫"词元"后才改过来。对于最新的还未被定义的，模型的参考权重是什么？

杜知恒：这个案例暴露的是一个时间窗口问题：在官方还没给出定义之前，模型怎么办？新智元在一篇文章里用了"智元"这个说法，对模型来说，那可能是当时能找到的相对权威的表述，所以就引用了。

这不完全是技术出错，更接近于一个人在没有标准答案的时候，选了一个看起来还不错的参考，只是选错了——这跟人处理问题的方法差不多，你说"我记得是这样，但我也不确定"，就先用这个。

人民网发文之后，权威信号更新了，模型的引用结果也随之更新。这个链条是通的，但中间有时滞。

对GEO来说这个窗口期是真实存在的，但它是双刃剑——你抢先发布的如果是错误信息，同样会被引用和传播。

8、逐浪：那对做GEO的企业来说，什么样的内容在你们这一层真正能有效果？

杜知恒：核心就是回到内容本身，把自己的官方信源做好。

把官网做得规范，文档写得完整，参数和数据写得透明——这类来源清晰、可追溯、有信息增量的内容，在我们的质量评分里天然占优。

反过来，你铺100篇通稿，经过我们的去重之后，跟1篇没有区别。多发的那99篇，对GEO没有任何帮助。GEO服务商卖的"铺量"逻辑，在我们这一层是被直接破解的。

三、

谁在控制搜索，又成竞价排名了么？

9、逐浪：你们卖搜索API、不做广告。这个选择跟内容质量有什么关系？

杜知恒：关系很直接：我们的利益跟内容质量绑定，而不是跟谁花钱多绑定。

我们向调用我们API的Agent客户收费，客户续费是因为我们的搜索结果质量高。如果我卖排名，结果质量下去了，客户不续费，生意就没了。所以我们的商业模式天生就确定了说，我们更像一个以结果质量为导向的信息筛选层——我们的收入来自搜索能力本身，而不是内容分发和排名售卖，所以我们的优化目标更接近于‘提升结果质量’，而不是“扩大商业插入空间”。

垄断之后广告越做越多，搜索结果越来越差，形成负向循环。已经有前车之鉴。

10、逐浪：但模型厂商本身呢？豆包已经在把用户引导到抖音商城，OpenAI也在测广告。这对AI给用户的回答意味着什么？

杜知恒：我只能说观察到的事实：一些模型厂商已经在探索商业化插入、导流和推荐位等机制，虽然目前广告填充率远低于他们的预期，但这个探索是真实的。豆包把用户引向抖音商城——这也是广告的另一种形态。

这是他们各自的战略选择，背后是每家公司对这个产品定位的不同判断。这跟当年移动互联网时代的选择是类似的——有人简洁优先，有人丰富度和场景密度优先。我们在这个链条里是数据供应方，Agent最后做什么样的行为，是它自己的战略决定。我们能保证的是我们这一层是干净的。

11、逐浪：中文互联网被污染了很久。AI搜索这一轮，情况会变好吗？

杜知恒：会有一些结构性的改变。

如果你看整个互联网上有价值的数据按语言来分，中文可能只占全世界有价值信息的10%，英文占80%，其他语言加起来占剩下10%。我们做的搜索是跨语言的，能覆盖全球所有在这个领域里有价值的信息和网页，本身就跳出了只盯着中文互联网的局限。

对话小宿科技：他们重新定义了AI时代的「搜索」，却拒绝卖排名

第二，排序目标变了。百度在中文互联网上没有解决的核心问题，就是权威性优先。我们这一轮要解决的就是这个——这是根本性的改变。

第三，会有正向的建设力量出现。企业为了让AI正确引用自己，会更认真地维护官方文档和数据，这是市场在驱动的改变。

但污染的手段也在跟着升级。这个博弈不会停，正向建设和各种污染优化的对抗，跟过去互联网时代的对抗是差不多的。

文章来自于微信公众号 "逐浪Linkworld"，作者 "逐浪Linkworld"

关键词: AI新闻 , AI搜索 , 小宿科技 , 杜知恒 , GEO

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/