一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

9300点击 2026-04-14 09:11

同样是做儿童 AI 硬件，奇朵的切入点有些不一样。

他们不做学习机，不做故事机，也不做陪伴玩具。他们做了一台让孩子拿着走出去、对着真实世界提问的相机。

背后的逻辑来自皮亚杰的建构主义，孩子的认知不是灌进去的，是在与真实世界的互动中自己建构出来的。VLM 模型的成熟，第一次让这件事在技术上变得可行。

内容上，他们选择了国内熟知的《十万个为什么》进行 IP 合作，并在此基础上搭建了一整套可信任的知识底座，解决了家长们对于 AI 回答不准确的担心。

一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

创始人黄勇在儿童硬件行业做了十多年，在他看来，过往做硬件的思路在今天已经做不出 AI 原生的好产品了，于是决定亲自下场，重新定义自己做这个行业的方式。

范式很明确，「核心是给 Agent 打造硬件产品，先定义好一个场景或内容驱动的 Agent，然后为它做躯体，而不是做了个硬件就往里堆东西。」

我们和黄勇聊了聊，关于 AI Native 硬件的新范式，以及如何为下一代孩子打造一款真正原生的 AI 产品。

01 做一款让孩子走出去的硬件产品

Founder Park：简单介绍下奇朵团队。

黄勇：奇朵团队主要有两个特点。

第一是，我们从第一天开始就想做面向全球 18 亿儿童的产品，所以在团队组建上一开始就推进全球化。我们的核心产品成员来自 Meta、谷歌的软硬件产品与营销负责人，同时引入了一位毕业于斯坦福大学，并在北美、欧洲及亚洲有组织拓展丰富经验的资深专家担任 COO。

做全球儿童生意还有一个特殊之处，合规。我们从一开始就设置了专门的合规团队，儿童业务的合规要求非常高，比如美国的 COPPA、欧盟的 GDPR 都需要提前布局。通过努力，我们已成为海外一个儿童数据合规组织的重要成员，从硬件设计阶段就开始做合规设计。

第二，要做好这一波原生儿童硬件，必须三位一体，对内容、AI 和硬件进行端到端的控制。传统行业是工业化分工模式：做内容的是一拨人，做 AI 的是一拨人，做硬件的又是一拨人。这种拼装模式很难做出真正原生的产品。

原生硬件产品一定是迭代出来的，不可能一开始就打得很准。如果还按传统产业分工来组织，一个新产品或新版本的开发周期至少要 8 到 10 个月，根本跟不上节奏。

此外，我们大部分成员都带过孩子。做儿童或教育类硬件，光靠专业还不够，更重要的是有亲身体感。很多儿童产品的设计细节，没带过孩子的人很容易忽视。

Founder Park：在奇朵之前，你在玩瞳做了这么多年 ToB 服务，为什么决定出来做儿童 ToC 硬件了？

黄勇：我个人在儿童硬件或教育行业干了十多年，之前一直玩瞳做图像搜索的 API，属于 PaaS 层的 License 业务。在那家公司里，我们做的 AI 服务更多属于上一代 AI——模式识别。那个时代，AI、内容和硬件是分开的，AI 只起到匹配和搜索的作用。

但到了今天，我明确感觉到生成式 AI 在重构这一切。生成式 AI 时代，AI 或 Agent 本身就是内容。同时硬件和内容的关系也在变——原来硬件更多是容器或播放器，现在我们要为 AI 智能体打造躯体。智能体要真正发挥作用，可能需要一双好的眼睛，那我们就应该在影像系统上做更强化的设计，并持续迭代视觉系统。

从模式识别的中间平台到今天，我感觉到原来那种三者分工的模式做不出 AI 原生的好产品了。我觉得有必要重新定义自己做这个行业的方式，所以创立了奇朵。

理念很明确——核心是给一个 Agent 打造 AI 硬件产品，先定义好一个场景或内容驱动的智能体，然后为它做躯体，而不是做了个硬件就往里堆东西。

Founder Park：那为什么选择现在这个方向？

黄勇：在儿童硬件、教育行业干做了十多年，我发现现在的儿童和教育类产品都有一个共同的大问题：几乎所有产品，无论硬件、APP 还是图书，把偏向把用户留在家里，在桌子上、纸上或屏幕上学习。

但皮亚杰的建构主义认知发展理论强调的是，儿童的智能和认知是在与真实世界的互动过程中自己建构出来的，不是灌输进去的。蒙台梭利也持这种理念，只是当时技术条件不成熟，只能用抽象的教具来做教育。

到了 2024 年前后，多模态模型和视觉语言模型逐渐成熟，技术条件终于允许我们让孩子以 AI 作为脚手架，去与真实世界观察、提问、互动。所以我们产品的核心方向是，把真实世界还给孩子。

这也是为什么我们没有去做学习机，也没有做同类产品，那些产品市场上不缺我们。

Founder Park：你们想做一个让孩子走出去、跟大自然接触，帮他理解大自然、和大自然发生交互的产品。

黄勇：对。现在 VLM 的发展已经能把看起来凌乱的世界通过拍和分析很好地结构化，具备了基于拍摄进行互动交流和学习提问的能力。而且我们认为在未来这个时代，最重要的是提问的能力——能问出好问题。

Founder Park：从 ToB 转向 ToC，当时有什么顾虑吗？

黄勇：ToB 和 ToC 确实是两种逻辑，对商业要素的关注点完全不同。所以我没有在原来的公司上转型，是直接单独成立了一个新项目，重新融资、组建团队，完全按照 C 端逻辑来运营。

C 端的核心是用户洞察和爆品逻辑，用户洞察本质上是品类洞察，爆品逻辑本质上是产品体验。在品类洞察上，我做了十多年，看过很多品类拍脑袋出来，然后消亡、失败。

产品体验能不能做成爆款，主要还是靠专业团队和科学的方法论。爆款不能拍脑袋或凭感觉做，除非你是乔布斯，但乔布斯也不是每一款都是爆品。所以一方面是靠优秀团队互补，另一方面尤其在早期 MVP 阶段，尽快利用供应链能力快速推出原型产品，跟用户共创。产品最终一定是用户教出来的。

02 AI Native 硬件，

硬件只是 Agent 的脚手架

Founder Park：AI 就是内容本身，这句话应该怎么理解？

黄勇：这波生成式 AI，基于世界知识，可以实时地做内容的个性化匹配和生成，不再是一个静态的数字化格式等着你去检索和显示。所以生成式 AI 的本质就是内容，只不过我们需要让它在一个可控的、约束性的推理环境下，帮孩子生成真实的、可信任的、适龄的内容。

Founder Park：你们怎么理解 AI native 硬件？

黄勇：我们认为至少有四点。

第一，智能体驱动。不是因为有了硬件才去装东西，而是先有智能体，再为它打造硬件。我们这台相机就是服务于认知智能体的。

第二，多模态交互。尤其是图像类、视频类这种交互方式。

第三，主动智能。这是我们下一步要做的事。我们的设备上 Sensor 还不够丰富，下一步会加一颗 Sensor Hub MCU，把位置、温度、海拔全部接入，再结合长期记忆。举个例子：今天孩子来到某个公园，这颗独立的 MCU 在主控休眠时仍在工作，记录到孩子来到了这里，智能体就会主动「敲门」，「小朋友，昨天我们聊到的故事里那个角色，这里有，我们一起去看看吧。」

第四，是躯体能够持续进化。无论是认知深度、识别深度，还是硬件本身，都要持续迭代。比如目前我们的摄像头系统比常规儿童相机要好，下一步准备做 2000 万像素、支持全夜光和微光拍摄的「眼睛」，然后再持续迭代。

总结就是四个要素：智能体驱动、多模态交互、主动智能、躯体持续迭代。

Founder Park：躯体迭代的逻辑，本质上还是围绕着给智能体当更好的脚手架来持续演进。

黄勇：没错。智能体需要发挥什么能力，我们就在硬件上做配合，而不是先定义好硬件再做其他一切。比如沿着主动智能的方向，无论怎么「敲门」，它还是一个相对被动的场景。那我们就想到，可能更合适的形态是一只机器小狗——有四肢，能更主动地牵引孩子。当然，这就是我们说的躯体一定是迭代的。

Founder Park：所以真正的 AI Native 硬件不是一个形态固定的硬件？

黄勇：我觉得应该不是固定的，而是智能体本身在成长。

Founder Park：所以相机也不是你们将来一定要坚持的形态，未来可能没有取景框，可能会长出手和脚，变成机器小狗的形态。

黄勇：对，相机是目前我们认为比较适合做初代躯体的形态。我觉得这才是新时代设计硬件的思路。

我们自己认为它是孩子未来的探索小伙伴，但这个概念对用户来说太超前。Camera 这个词，用户立刻就懂了，拍这个动作他会，按着说话他也大概能理解。就像特斯拉，它最终可能是在造机器人，但它先造了一辆车。我们是在用造下一代机器人的思路造我们的 camera，这个 camera 长大之后，可能就是一个具身机器人，也有可能是小狗形态的。

一款好的 AI Native 硬件，硬件只是脚手架，真正壁垒一定是 Agent

Founder Park：为什么是小狗形态？

黄勇：这不是我们团队自己拍脑袋想的，是跟家长聊着聊着，他们觉得这种场景挺融入生活的。比如现在的机器狗腿都做得很长，我跟几家做机器狗的聊过，问能不能腿短一点。他们说短了爬不了楼梯，我说没关系，小孩子抱一下就行了。

如果这只机器小狗能做到 5000 元人民币，一年卖 5 万台估计也不是问题。所以这一轮融资结束后，我们可能会去开发小狗的原型。

最重要的是主动交互，这件事非常重要。再加上我们大量的知识沉淀，这只小狗怎么跟孩子交流，其实在上一代产品上已经有了一些交互经验和沉淀。

Founder Park：明白。核心还是解决小孩子对世界的好奇——当他有疑问、想提问的时候，永远有一个东西能引导他、帮他了解这个世界。

黄勇：对。这只小狗我们叫「探索小狗」，不是生活看护小狗。它不是来守卫安全的，而是带着孩子去探索世界的。周六早上起来挠挠小主人的腿，我们该出发了。你来到一棵树下，你看上面有几个苹果？数一下，看谁数得快。我们不做安全守护的狗，那不是我们的方向。

Founder Park：就是拉着孩子走出去的小伙伴。那其实有时候把家长的一些陪伴需求也给解决了。你们会不会往陪伴这个方向靠？

黄勇：不会。陪伴是个很大的词，内涵太多了。我还挺同情那些做陪伴产品的人——这么大一个词要做出好产品挺不容易。做产品肯定得聚焦——人群聚焦、场景聚焦。

目前我看到陪伴类做得比较聚焦的，是乙女向产品，面向年轻女性、定义清楚了她需要陪伴的是什么，这样才能做出好产品。陪伴这个词会带来用户期望值的巨大落差。消费者对陪伴有很多理解，但产品其实做不到。

我们强调的是好奇、探索和认知成长。

03 家长们「苦豆包久矣」

Founder Park：产品的用户是哪个年龄段的孩子？

黄勇：奇朵成立大概一个月后，我们借助供应链资源，快速推出了内部代号「小绿机」的第一款产品，让三四百个家庭持续在用，然后给我们反馈。经历了两到三个月的共创迭代后，才推出了第一代正式产品。

在大的方向上，我们一直是清楚的，只是具体细节要跟着用户走。最开始我们模糊地定位在 3-6 岁或 3-8 岁，但共创用户里有很多小学科学老师，现在国家在小学每个年级都配备了科学老师，科学课的课时在很多地区已经远超英语了。老师们觉得这款产品非常契合从小培养科学思维的需求。基于这些反馈，我们把国内版的目标年龄段调整到了 6-12 岁左右，但海外产品继续保持 3-8 岁的定位，做极简体验。

国内版围绕科学素养培养丰富了功能，包括拍物品、观察细节、记录实验、拍摄现象等等，这些都是跟用户共创出来的。

Founder Park：国内 6-12 岁和海外 3-8 岁，这两个年龄段的产品在形态上有什么区别？

黄勇：区别比较大。6-12 岁的产品我们定义为一台相机，因为这个年龄段的孩子已经对相机有了概念。3-8 岁，我们的设计思路更接近闪卡，家长教孩子认知事物时会用那种卡片，我们从外观上也往这个方向设计，以后全世界的妈妈就不再需要买纸质闪卡了。

之所以让 3-8 岁的产品先出海，是因为年龄越小，全世界的教育理念和体系越一致。年龄越大，涉及国别、民族、文化、政策的差异就越大。所以我们在海外先推 3-8 岁，希望全世界的妈妈都能拥有一张我们用心打造的闪卡。

Founder Park：面向 6-12 岁的国内产品，你们预期的用户场景是什么样的？

黄勇：这个年龄段探索的维度多了很多。3-6 岁，孩子关注的以具体物品为主；6-12 岁，他不仅关注实物，还会关注现象。为什么开水会沸腾？为什么天边会出现彩虹？我们观察到大约 8 岁左右的孩子会特别喜欢拍摄细微的东西，比如叶脉、瓢虫的纹理，开始关注微小世界，对事物的观察变得更加多维。这本质上是认知发展推动他去关注更丰富的事物和现象。

同样是一个杯子，3-6 岁，我们告诉他这个杯子是红色的、是圆形的；到了 6-12 岁，他问的是人类为什么要有杯子，提出的是前因后果式的问题。驱动场景的核心是好奇心，而且好奇心是自然发生的，不可能预设。孩子进入「十万个为什么」模式，不停地问为什么，把爸爸逼得无从回答，只好让孩子去问妈妈，妈妈再踢回给爸爸。我们只是提供一个脚手架式的工具，让孩子能够得到支撑就好。

Founder Park：现在产品的用户使用时长是多少？

黄勇：我们 MVP 产品日均使用时长大概在 26 分钟，还不错。家长的反馈是孩子蛮喜欢用的，尤其是出去的时候。小孩子也确实需要一个自己的拍摄设备。

Founder Park：早期用户的反馈里有超出预期的地方吗？

黄勇：家长的反馈是「苦豆包久矣」，他们认可 AI 能带来很大帮助，但豆包你告诉它「我是 6 岁小孩」，它的回答也是洋洋洒洒说一大堆；而且下面紧跟着的还有短视频，本来是想让 AI 带娃，结果变成豆包带娃、视频带娃了。而且随着互联网上垃圾信息越来越多，家长的担心也越来越大。

所以我能明确感觉到，家长对一款可控、可信任的儿童版 AI 工具表现出了极大的热情。他们也知道下一代孩子肯定要用 AI，只是需要一个更安全的方式。

而且豆包的商业化方向不会针对儿童，它更多是广告、电商这块，那是一个更大的市场。我们就真正把这种 AI 带娃的价值落实好，把豆包对家长的教育成果接过来，补足其短板，尤其是内容可控、可信任这一点。

从孩子来说，他们最喜欢的就是拍，因为大人天天拿手机拍，孩子也想拍，有一个属于自己的拍摄设备这件事本身就让他们很开心。

Founder Park：所以你们是用真正给孩子用的、可信任的儿童版豆包这个点来打动家长的。

黄勇：直观理解就是这样。豆包有的功能我们可能都有，但我们比它更可控、更可信任、更适合孩子，我觉得就足够了。而且豆包的商业化变现不会针对儿童——它现在更多是广告、电商，那么大的市场要吃。

所以我们就把豆包培养出来的用户行为接过来。每一个用豆包第一次带娃的家长都有那种 Aha Moment，原来可以这样。这已经证明了价值，我们无非就是把短板弥补好，尤其是内容生成和交互时的可控性、可信任性。如果奇朵将来能被世界教育界记住，我觉得这一点蛮重要的。

Founder Park：为什么是被教育界记住？

黄勇：我们针对儿童的审校知识世界的建立，加上强约束推理的组合，让孩子在缺乏判断力的年龄阶段，既得到 AI 带来的好处，又处在一个安全可信任的环境中。我觉得这个挺重要。

Founder Park：交互上，在家长端那边，会在 APP 上收到孩子的拍摄和提问推送吗？

黄勇：对，孩子每一次提问、每一次拍摄都会像信息流一样推过来，家长可以点赞鼓励，也可以转发分享，比如孩子第一次跟一只毛毛虫对话聊了什么，就可以直接转发。这个点赞也会反馈到孩子那边。

儿童产品除了符合认知发展规律之外，还有一个很重要的点是：它一定是个二元结构的产品，同时有两个用户，孩子和家长。家长需要有一种合适的方式参与进来，而不是管控。

而且我们在产品共创的过程中还发现了一个更深层次的价值：这款产品是孩子人生中第一件以第一视角记录世界的作品。以前孩子的生活是被爸爸妈妈的相机记录的，不是他自己眼睛看到的世界。现在孩子用第一视角记录的这些内容，我们要让家长端实时收到。我发现，很多孩子的第一次，第一次跟一只蝴蝶聊了 7 分钟、第一次发现叶脉里的秘密，家长都通过这台产品知道了。这种体验对家长来说其实非常触动，因为孩子本身就是他们最重要的作品。

04 硬件产品，

要把 Token 成本也纳入供应链

Founder Park：产品在端侧和云端的配合上是怎么做的？

黄勇：目前从硬件架构来看，我们采用的是强云弱端、强连接的方案。我们的产品用的是 LTE Cat 4 模块。端侧跑模型，一方面体验比云端差，另一方面硬件成本和功耗都会上去。现在蜂窝网络的连接成本已经极低，所以我们优先走云端。

我们在规划下一个版本时，考虑直接去掉本地存储、全部云存。因为这是一款实时联网的产品，而存储器价格高涨且波动剧烈，定价都难以把控，这是目前做 AI 硬件面临的很大挑战。

端侧主要做图像前处理。一张图片有两种用途：一是记录生活的照片，要尽量清晰；二是给 AI 分析的图像，需要传输高效稳定，类似大疆的图传逻辑，目的是什么，就做什么规格的优化。所以端侧要对两者做分路处理，用于 AI 分析的图像可以压得尽可能小，太高清反而增加流量成本和传输延迟。

Founder Park：云端模型的选择上有什么考量？

黄勇：现在主流 VLM 模型的参数体验基本都差不多，我们主要看的是物品识别的精度，比如能不能分辨这是蜜蜂还是马蜂。通用 VLM 在生物细分类目上还是比较有局限，基本只能识别到大类。所以我们在做一些自己的补充，通过购买公开数据集或领域内数据集来强化识别体验，微调或 RAG 都在考虑范围内。

识别精度是根本体验，我们算法团队在持续关注，拍是核心入口动作，我们肯定会把它做得越来越精准。

Founder Park：产品定价呢？

黄勇：国内 699 元，海外 199 美金左右。国内自带流量，海外是订阅制。另外还留了个卡槽，用户有自己的卡也可以插上去。

Founder Park：国内在是硬件付费的逻辑，考虑过其他商业化形式吗？

黄勇：国内通过内容订阅来变现可能比较难，我们更多考虑的是配件和云存储 + AI 技能订阅。

配件这条线，像远距镜头、微距镜头、实验拍摄支架等，配件本身还会带来耗材消耗。比如拍微距的时候，现实生活中找不到的标本，我们可以订阅提供观察玻璃片、实验素材包，这样就产生了耗材的持续消耗。

云存储这条线，影像类产品有个特点，影像是人的记忆，一般不会删。我们给用户提供 200GB 的免费云存，让孩子大量的第一次都存起来，之后 AI 剪辑、AI 成片、生成日记或漫画这类技能就可以按月订阅。举个例子，苹果用户之所以很难换机，最主要的原因不是体验，而是 iCloud 里的照片走不了。存储本身不应该赚钱，只要用户愿意存，后面的服务才是真正的变现点。

Founder Park：你们的 699 元的售价里既有模型 Token 费用又有存储费用，现在成本能打正吗？

黄勇：Token 成本这块，我们跟阿里和火山都在合作。目前 Token 成本以 License 方式给我们，一台机器一个价格一次性搞定，超出部分他们承担；云存储也是阿里一次性搞定。

硬件的逻辑和 Token 的逻辑其实有些悖论，Token 是个变量，硬件有明确的定价逻辑，是 BOM 表的逻辑。能不能被纳入供应链，关键是它能不能以明确的单价进入 BOM 表。很多做硬件的创业者对供应链的敏感度不高，容易被 Token 这个变量卡住，导致产品定价逻辑算不清楚。

产品本身应该具备的基础 AI 能力如果还要订阅，在中国市场应该行不通。这部分要么向后转嫁给供应链，要么作为研发投入——不要打在硬件成本里，要打在研发成本里，相当于买了一个技术服务。放在供应链里的是产品本身应该基础就有的 AI 能力，它的使用时长和 Token 消耗量不一定要反映在收入上——就像苹果摄像头好不好，看的是拍照数量，不会单独收费。

但更高级的延伸技能——产品概念之外的——可以按包月或 Token 方式订阅，这是合理的。你一开始说这是个 AI 相机，结果拍照识别还要收费，那不是偷换概念吗？就像苹果说拍照功能买完之后还要付钱，那就是坑人了。

这也是做硬件创业的难点——怎么处理 Token，在商业上还是挺考验人的。

Founder Park：跟火山、阿里的合作，还有京东，都是类似的商业逻辑？

黄勇：不，京东更多是渠道。火山和阿里更多是供应链——靠我们的模式、定义的人群和市场空间去打动他们，让他们接受我们的计价模式，Token 溢出部分他们承担——反正今年他们的考核指标也是 Token 量。

京东更多是因为我们发现这个产品偏「爸爸型」。孩子问很多为什么，妈妈的回答是问你爸。我们发现参与讨论比较积极的八成是爸爸，而京东是一个很典型的爸爸平台。

05 儿童内容产品，

核心是先建立一套可信任的知识底座

Founder Park：选择「十万个为什么」这个 IP，是自然而然觉得它适合这个场景，还是基于其他原因？

黄勇：主要还是我们分析后觉得「十万个为什么」这个 IP 更有影响力，也更适龄——对应 6～12 岁。在国内这个 IP 影响力很大，60 年培育了两三代科学家，基本上从小都读过。而且「十万个为什么」也面临着在 AI 时代如何进一步发挥的问题，我们跟他们一碰即合，就开始做这个事情。

Founder Park：选择这个 IP 合作，主要是打动家长，还是对孩子本身也有价值？

黄勇：两个层面都有。首先是，它帮助打通家长认知，家长对它有基础的信任感。更重要的是，我们致力于打造可信任的儿童 AI，《十万个为什么》的背书让家长直觉上就感受到：这个东西不会乱说，它是权威的。对家长来说，这个 IP 传递了两个商业价值：一是已有的知识认知基础，二是可信任儿童 AI 的背书。

至于孩子，他们可能不那么熟悉这个 IP 本身，但这个 IP 契合的是他们这个年龄自然涌现的好奇心和为什么。

Founder Park：儿童 AI 产品最大的风险是内容不可控，你们怎么解决这个问题？

黄勇：如果直接把大模型基于互联网世界知识无过滤地推理给孩子，那是极度不负责任的。一年前用豆包带娃还算放心，今天我自己都分不清楚它说的内容的对错了。

所以我们先建立了一套可信任的知识底座。儿童行业里存在一个经过出版审校的知识世界，泛知识领域有《十万个为什么》、《小牛顿》、《大英百科全书》、DK 等等，这些是经过严格审校的出版物。我们搭建了一条生产线，把这些出版物的知识结构系统化，通过三审三校的方式构建出一个巨大的约束推理参考知识库，再做 RAG 组合，实现可信任、可控制的推理。

简单说，我们不是把大模型的知识直接透给孩子，而是先在地上建了一座图书馆，AI 在跟孩子交流时，优先从这座图书馆里取材，这是奇朵的强约束推理。

我们有个出版 AI Agent 的流程处理，会先抽取出版物的知识结构，再用智能体模拟原书格式补充更丰富的问答，因为原书的内容条目远不够用。测试到 98% 的问题可以被覆盖之后，通过审校模型进行三审三校：AI 做第一审，我们内部抽 2% 做二审，合作 IP 的编辑再抽 2% 做三审。审校完成后向量化，交给智能体做约束推理。

《十万个为什么》原书可能只有 6 万个问题，我们补充到了 200 万个，补充率非常高。我们的做法是分了几种 Agent：内容生成 Agent、内容审查 Agent，再加众包人工审核，确保整个知识体系是经过完整审校的。因为加入了 AI，整个速度非常快，如果纯靠人工逐条生产 200 万条内容，要花很长时间。

Founder Park：如果用户问了一个知识库没覆盖到的问题，怎么处理？

黄勇：一般当知识库积累到几百万条问答之后，基本能覆盖 98% 的问题。剩下的 2%，AI 会直接告诉孩子「这个问题我还没学过」，我们把它抛回生成 Agent 重新生成，再经审校流程入库，形成持续迭代的闭环。整个知识体系有点像一个大型 RAG，完全经过审校，同时持续接收用户未命中的问题反馈，不断丰富迭代。

儿童产品与其乱说，不如诚实地说不知道，哪怕牺牲一点体验也是值得的。

Founder Park：「十万个为什么」算是你们的内容护城河吗？

黄勇：我们和 IP 之间是合作兼解耦的关系，知识底座是我们自己的核心能力，我们在自己的智能体之上匹配不同 IP 的风格。比如 DK 和《十万个为什么》的风格就完全不同：《十万个为什么》是引导孩子提问，DK 是更多引导孩子观察。未来我们的商业模式可能类似高德地图的语音导航，底层的地图数据是我们自己的，但你喜欢哪种导航风格，就订阅哪个。

通过与《十万个为什么》、DK 这些历史巨人合作，也许未来奇朵或聪明口袋本身就会成长为「未来的 DK、未来的《十万个为什么》」。生成式 AI 对传统内容生产是一种颠覆，但这个颠覆是长期过程，我们现在做的事，是给这个长期过程打底。

Founder Park：那这套技术方案算是你们的壁垒吗？如果竞品也想这么做，你们能领先多长时间？

黄勇：是小壁垒，而且它持续积累数据，先发优势加上用户回馈会形成反馈飞轮，内容积累加用户数据反馈，是一个持续往前跑的正向循环。其他产品应该也是这样做的，至少目前我没看到有比我们更巧妙的实现方式。

06 小天才证明了，

「拍」是儿童产品的强需求

Founder Park：你们的竞品是什么？小天才、拍学机，哪些是你们真正要对标的？

黄勇：硬件方面，今年拍学机很火，各种品牌都在开学季出来，他们更多是从硬件角度出发。但我们更多是从内容和智能体本身出发，我们不会做一款容器性的产品，而是做一款躯体性的产品，形状上可能有些相似，但价值出发点完全不同。

任何新品类刚开始都很卷，大家都觉得有机会，卷一个周期后，90% 的人自己卷不动就撤出了，剩下有积累、有差异化、有品牌化方向的 5% 到 10%，才在第二阶段形成真正的发展机会。硬件每个新品类基本都是这个规律。

像小天才，我更觉得他是在帮我们培养用户，小天才这五六年，在硬件上只折腾了一件事：各种角度的拍。一家做产品很严谨的企业持续这么多年只折腾摄像头，说明拍真的是有需求。那我们就把拍做好，做得比它好。手表形态因为穿戴和便携的限制，拍摄体验本来就不会太好。

Founder Park：万一小天才也出一款类似的儿童相机呢？

黄勇：那我觉得他和我们应该都是能进决赛的选手。这个市场不是奇朵发现了就只有奇朵一家，一定有个过程，关键在我们能不能在最后阶段取胜。取胜靠的不是一味进攻，要有自己的思考、自己的护城河、自己的防御力。把自己的内功做扎实，本身就是最好的进攻。

Founder Park：跟竞品相比，你们最大的竞争优势是什么？

黄勇：我们最核心的竞争优势是拍和问这两个体验点：第一，持续把审校知识世界加上强约束推理投入进去；第二，持续迭代拍摄精度、识别精度和影像成像的儿童化体验。你拍得够不够准、够不够精、够不够严谨？你问的引导教学，能不能激发孩子在交流过程中获得更多知识和启迪？这才是这个赛道核心的竞争点，也是我们需要持续投入的方向。

当然，做 C 端项目品牌也很重要。这的确是我在学的一门新课——从 ToB 到 ToC，做用户洞察、做产品都好说，品牌认知是我需要通过实践去补的短板。我觉得未来真正的复利是：在技术有一定领先壁垒的基础上，品牌心智才是复利。AI 都这么发达的情况下，世界上可能只有那么几家公司能说自己有技术壁垒。

尤其是海外，品牌资产非常重要。外国用户对品牌这件事非常认可。而且海外有独立站，用户数据可以落到自己手里，形成天然私域；国内所有品牌都要依托抖音、天猫、京东其他平台，数据永远无法完全落到自己手里。所以如果我们 Day 1 就想做 global 公司，建立品牌心智这件事非常非常重要。

我们 IP 合作的策略是：借助有影响力的 IP 为我们做背书、吸引他们的粉丝，同时我们也需要它的内容。但最终目标是让「聪明口袋」或海外品牌独立成长，当消费者想买一款 AI 儿童硬件，第一反应就是我去搜搜聪明口袋最近出了什么新品。

Founder Park：你们希望奇朵（聪明口袋）这个品牌给用户传达什么感觉？

黄勇：我们的 slogan 是「爱学习，更爱生活」，想传达的是：学习不是痛苦的过程，而是有趣、值得享受的过程。这也是 AI 时代学习的新范式，游戏化、好玩，才是学习应该有的样子。

我们的吉祥物是一只小狐狸，设计得比较调皮可爱。一只从来没有经过应试教育拷打的狐狸。

我们现在针对的家长大部分是 90 后，他们给自己买东西是颜值驱动的，给孩子买东西同样如此。颜值这件事在这个时代已经被验证了。所以在视觉审美上我们花了很大的工夫，包装和产品细节都很讲究。持续购买配件这件事，就要看孩子能不能长期用下去，所以体验上一定要尊重孩子的发展规律。

Founder Park：你们团队现在大概多少人？

黄勇：目前 40 多人。硬件、算法、内容都有，但也有很多合作的外包公司做一些事情。

我们把产品定义和重要的开发放在内部——软硬件结合、软件迭代、内容这些全都能自己做。一些垂直领域更专业的事情会外包——比如我们没有工业设计师，但有硬件产品经理，工业设计就交给更前沿的设计工作室。核心产品定义、核心迭代抓在自己手里。

Founder Park：现在还在招人吗？

黄勇：在招。尤其是内容营销能力。接下来产品不是问题，我们特别需要把内容营销能力和产品力同等对待。

Founder Park：内容营销岗位具体要做什么？

黄勇：第一是品牌向——知道怎样梳理产品卖点，转化成用户能理解的语言。这个产品比较新，有教育成本，怎样快速让用户理解很需要功底。第二是现在抖音这些平台消耗素材很快，需要能持续产生好内容的人——不是今天有个灵感搞一个，而是能持续产出。这个能力现在挺稀缺的。

07 硬件本身根本不是壁垒

Founder Park：AI 硬件和儿童 AI 硬件的核心区别是什么？

黄勇：两个。第一，内容。普通消费硬件靠功能驱动，儿童产品一定是内容驱动的——无论表现为 APP、图书还是硬件，本质上都是内容作品。这是第一性的东西，无论内容来自传统数字化出版、图书出版，还是生成式 AI 加审校，它都是内容作品。

第二，实体设计对儿童发育规律的尊重。我们做每一个产品都要请四五个教研专家——儿童心理学专家——来审核。我们真的怕闹笑话。从做产品的角度来说，大家不都追求留存吗？那简单，丢个手机给孩子，数据保证好得一塌糊涂。但能这样做吗？肯定不行。

Founder Park：内容为什么是第一性的？

黄勇：儿童的学习过程就是看到、听到、内化吸收。他吸收进去的东西一定要是好的。如果只是有个功能——比如只是个相机去拍——孩子在里面其实没有意义。但如果每次拍摄能转化成一次认知迭代、认知发展，对他的成长就有意义。

Founder Park：整体来看，现在做 AI 硬件，是比以前更容易了还是更难了？

黄勇：做硬件肯定是更容易了。我们比较看重的是 Token 成本的持续下降，Token 成本足够低之后，它作为一个变量对产品的影响和定价才有可控性，才能真正被纳入硬件供应链管理，硬件公司做这件事才更有把握。

但总体来说，对硬件公司的要求也更高了。一家公司需要同时具备软硬件结合能力，加上内容理解能力。我们最开始想招一个产品经理就够了，后来发现不行，要拆成软件产品经理、硬件产品经理、内容产品经理，甚至还要拆得更细。需要非常多维度的能力，才能把一件事做好。

Founder Park：虽然模型能力到了，但挑战也更多了。这两年出现了很多 AI 硬件公司，肯定有很多会被淘汰，他们会因为什么原因活不下去？

黄勇：只要是套壳的可能都不行——模型套个壳就去做，本质上会陷入同质化竞争，在第一节互卷的时候就属于那 90%。

Founder Park：硬件的套壳怎么理解？

黄勇：硬件本身根本不是壁垒，在我们深圳人看来根本不是问题。

Founder Park：对这两年进入 AI 硬件赛道的人，你有什么建议？

黄勇：给做软件或内容出身的人：做硬件最大的风险点是基础平台——主控芯片平台。如果不熟，风险最大。你得先搞清楚自己是在做影像、做音频，还是做多媒体播放类的产品。如果在芯片选型上特别在意成本，就很容易选错平台。芯片平台选错了，整个体验最后会发现要推倒重来。

现在消费类 SoC 细分得很细，每个大场景都有对应的主控平台。一旦选错，不光浪费钱，还浪费时间。很多做软件或做内容的进来做硬件，经常被卡在这里——不知道自己需要什么样的计算平台，选型很盲目，或者听方案公司推荐就选了。比如很多做拍学机的，用了某些做蓝牙和音频出来的芯片，性能弱，后续迭代就很难往前推。讲究性价比没问题，但芯片的方向要对。

传统硬件的人可能最容易做的就是接口——直接对接模型 API 套个壳。如果团队之前没有介入过 AI 开发或内容开发，很容易就是简单套壳，没有自己核心的能力，沦为模型能力的简单脚手架。

要问自己：你的主要交互方式是什么？听和说，还是拍录，还是点击播放？在这个核心交互上，你的技术和体验积累够不够深？

做儿童教育的东西，笨一点没关系，下的功夫厚一点，反而是壁垒。

文章来自于"Founder Park"，作者 "Founder Park"。

关键词: AI新闻 , AI硬件 , AI玩具 , 黄勇 , AI相机

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner