同样是做儿童 AI 硬件,奇朵的切入点有些不一样。
他们不做学习机,不做故事机,也不做陪伴玩具。他们做了一台让孩子拿着走出去、对着真实世界提问的相机。
背后的逻辑来自皮亚杰的建构主义,孩子的认知不是灌进去的,是在与真实世界的互动中自己建构出来的。VLM 模型的成熟,第一次让这件事在技术上变得可行。
内容上,他们选择了国内熟知的《十万个为什么》进行 IP 合作,并在此基础上搭建了一整套可信任的知识底座,解决了家长们对于 AI 回答不准确的担心。

创始人黄勇在儿童硬件行业做了十多年,在他看来,过往做硬件的思路在今天已经做不出 AI 原生的好产品了,于是决定亲自下场,重新定义自己做这个行业的方式。
范式很明确,「核心是给 Agent 打造硬件产品,先定义好一个场景或内容驱动的 Agent,然后为它做躯体,而不是做了个硬件就往里堆东西。」
我们和黄勇聊了聊,关于 AI Native 硬件的新范式,以及如何为下一代孩子打造一款真正原生的 AI 产品。
Founder Park:简单介绍下奇朵团队。
黄勇:奇朵团队主要有两个特点。
第一是,我们从第一天开始就想做面向全球 18 亿儿童的产品,所以在团队组建上一开始就推进全球化。我们的核心产品成员来自 Meta、谷歌的软硬件产品与营销负责人,同时引入了一位毕业于斯坦福大学,并在北美、欧洲及亚洲有组织拓展丰富经验的资深专家担任 COO。
做全球儿童生意还有一个特殊之处,合规。我们从一开始就设置了专门的合规团队,儿童业务的合规要求非常高,比如美国的 COPPA、欧盟的 GDPR 都需要提前布局。通过努力,我们已成为海外一个儿童数据合规组织的重要成员,从硬件设计阶段就开始做合规设计。
第二,要做好这一波原生儿童硬件,必须三位一体,对内容、AI 和硬件进行端到端的控制。传统行业是工业化分工模式:做内容的是一拨人,做 AI 的是一拨人,做硬件的又是一拨人。这种拼装模式很难做出真正原生的产品。
原生硬件产品一定是迭代出来的,不可能一开始就打得很准。如果还按传统产业分工来组织,一个新产品或新版本的开发周期至少要 8 到 10 个月,根本跟不上节奏。
此外,我们大部分成员都带过孩子。做儿童或教育类硬件,光靠专业还不够,更重要的是有亲身体感。很多儿童产品的设计细节,没带过孩子的人很容易忽视。
Founder Park:在奇朵之前,你在玩瞳做了这么多年 ToB 服务,为什么决定出来做儿童 ToC 硬件了?
黄勇:我个人在儿童硬件或教育行业干了十多年,之前一直玩瞳做图像搜索的 API,属于 PaaS 层的 License 业务。在那家公司里,我们做的 AI 服务更多属于上一代 AI——模式识别。那个时代,AI、内容和硬件是分开的,AI 只起到匹配和搜索的作用。
但到了今天,我明确感觉到生成式 AI 在重构这一切。生成式 AI 时代,AI 或 Agent 本身就是内容。同时硬件和内容的关系也在变——原来硬件更多是容器或播放器,现在我们要为 AI 智能体打造躯体。智能体要真正发挥作用,可能需要一双好的眼睛,那我们就应该在影像系统上做更强化的设计,并持续迭代视觉系统。
从模式识别的中间平台到今天,我感觉到原来那种三者分工的模式做不出 AI 原生的好产品了。我觉得有必要重新定义自己做这个行业的方式,所以创立了奇朵。
理念很明确——核心是给一个 Agent 打造 AI 硬件产品,先定义好一个场景或内容驱动的智能体,然后为它做躯体,而不是做了个硬件就往里堆东西。
Founder Park:那为什么选择现在这个方向?
黄勇:在儿童硬件、教育行业干做了十多年,我发现现在的儿童和教育类产品都有一个共同的大问题:几乎所有产品,无论硬件、APP 还是图书,把偏向把用户留在家里,在桌子上、纸上或屏幕上学习。
但皮亚杰的建构主义认知发展理论强调的是,儿童的智能和认知是在与真实世界的互动过程中自己建构出来的,不是灌输进去的。蒙台梭利也持这种理念,只是当时技术条件不成熟,只能用抽象的教具来做教育。
到了 2024 年前后,多模态模型和视觉语言模型逐渐成熟,技术条件终于允许我们让孩子以 AI 作为脚手架,去与真实世界观察、提问、互动。所以我们产品的核心方向是,把真实世界还给孩子。
这也是为什么我们没有去做学习机,也没有做同类产品,那些产品市场上不缺我们。
Founder Park:你们想做一个让孩子走出去、跟大自然接触,帮他理解大自然、和大自然发生交互的产品。
黄勇:对。现在 VLM 的发展已经能把看起来凌乱的世界通过拍和分析很好地结构化,具备了基于拍摄进行互动交流和学习提问的能力。而且我们认为在未来这个时代,最重要的是提问的能力——能问出好问题。
Founder Park:从 ToB 转向 ToC,当时有什么顾虑吗?
黄勇:ToB 和 ToC 确实是两种逻辑,对商业要素的关注点完全不同。所以我没有在原来的公司上转型,是直接单独成立了一个新项目,重新融资、组建团队,完全按照 C 端逻辑来运营。
C 端的核心是用户洞察和爆品逻辑,用户洞察本质上是品类洞察,爆品逻辑本质上是产品体验。在品类洞察上,我做了十多年,看过很多品类拍脑袋出来,然后消亡、失败。
产品体验能不能做成爆款,主要还是靠专业团队和科学的方法论。爆款不能拍脑袋或凭感觉做,除非你是乔布斯,但乔布斯也不是每一款都是爆品。所以一方面是靠优秀团队互补,另一方面尤其在早期 MVP 阶段,尽快利用供应链能力快速推出原型产品,跟用户共创。产品最终一定是用户教出来的。
Founder Park:AI 就是内容本身,这句话应该怎么理解?
黄勇:这波生成式 AI,基于世界知识,可以实时地做内容的个性化匹配和生成,不再是一个静态的数字化格式等着你去检索和显示。所以生成式 AI 的本质就是内容,只不过我们需要让它在一个可控的、约束性的推理环境下,帮孩子生成真实的、可信任的、适龄的内容。
Founder Park:你们怎么理解 AI native 硬件?
黄勇:我们认为至少有四点。
第一,智能体驱动。不是因为有了硬件才去装东西,而是先有智能体,再为它打造硬件。我们这台相机就是服务于认知智能体的。
第二,多模态交互。尤其是图像类、视频类这种交互方式。
第三,主动智能。这是我们下一步要做的事。我们的设备上 Sensor 还不够丰富,下一步会加一颗 Sensor Hub MCU,把位置、温度、海拔全部接入,再结合长期记忆。举个例子:今天孩子来到某个公园,这颗独立的 MCU 在主控休眠时仍在工作,记录到孩子来到了这里,智能体就会主动「敲门」,「小朋友,昨天我们聊到的故事里那个角色,这里有,我们一起去看看吧。」
第四,是躯体能够持续进化。无论是认知深度、识别深度,还是硬件本身,都要持续迭代。比如目前我们的摄像头系统比常规儿童相机要好,下一步准备做 2000 万像素、支持全夜光和微光拍摄的「眼睛」,然后再持续迭代。
总结就是四个要素:智能体驱动、多模态交互、主动智能、躯体持续迭代。
Founder Park:躯体迭代的逻辑,本质上还是围绕着给智能体当更好的脚手架来持续演进。
黄勇:没错。智能体需要发挥什么能力,我们就在硬件上做配合,而不是先定义好硬件再做其他一切。比如沿着主动智能的方向,无论怎么「敲门」,它还是一个相对被动的场景。那我们就想到,可能更合适的形态是一只机器小狗——有四肢,能更主动地牵引孩子。当然,这就是我们说的躯体一定是迭代的。
Founder Park:所以真正的 AI Native 硬件不是一个形态固定的硬件?
黄勇:我觉得应该不是固定的,而是智能体本身在成长。
Founder Park:所以相机也不是你们将来一定要坚持的形态,未来可能没有取景框,可能会长出手和脚,变成机器小狗的形态。
黄勇:对,相机是目前我们认为比较适合做初代躯体的形态。我觉得这才是新时代设计硬件的思路。
我们自己认为它是孩子未来的探索小伙伴,但这个概念对用户来说太超前。Camera 这个词,用户立刻就懂了,拍这个动作他会,按着说话他也大概能理解。就像特斯拉,它最终可能是在造机器人,但它先造了一辆车。我们是在用造下一代机器人的思路造我们的 camera,这个 camera 长大之后,可能就是一个具身机器人,也有可能是小狗形态的。

Founder Park:为什么是小狗形态?
黄勇:这不是我们团队自己拍脑袋想的,是跟家长聊着聊着,他们觉得这种场景挺融入生活的。比如现在的机器狗腿都做得很长,我跟几家做机器狗的聊过,问能不能腿短一点。他们说短了爬不了楼梯,我说没关系,小孩子抱一下就行了。
如果这只机器小狗能做到 5000 元人民币,一年卖 5 万台估计也不是问题。所以这一轮融资结束后,我们可能会去开发小狗的原型。
最重要的是主动交互,这件事非常重要。再加上我们大量的知识沉淀,这只小狗怎么跟孩子交流,其实在上一代产品上已经有了一些交互经验和沉淀。
Founder Park:明白。核心还是解决小孩子对世界的好奇——当他有疑问、想提问的时候,永远有一个东西能引导他、帮他了解这个世界。
黄勇:对。这只小狗我们叫「探索小狗」,不是生活看护小狗。它不是来守卫安全的,而是带着孩子去探索世界的。周六早上起来挠挠小主人的腿,我们该出发了。你来到一棵树下,你看上面有几个苹果?数一下,看谁数得快。我们不做安全守护的狗,那不是我们的方向。
Founder Park:就是拉着孩子走出去的小伙伴。那其实有时候把家长的一些陪伴需求也给解决了。你们会不会往陪伴这个方向靠?
黄勇:不会。陪伴是个很大的词,内涵太多了。我还挺同情那些做陪伴产品的人——这么大一个词要做出好产品挺不容易。做产品肯定得聚焦——人群聚焦、场景聚焦。
目前我看到陪伴类做得比较聚焦的,是乙女向产品,面向年轻女性、定义清楚了她需要陪伴的是什么,这样才能做出好产品。陪伴这个词会带来用户期望值的巨大落差。消费者对陪伴有很多理解,但产品其实做不到。
我们强调的是好奇、探索和认知成长。
Founder Park:产品的用户是哪个年龄段的孩子?
黄勇:奇朵成立大概一个月后,我们借助供应链资源,快速推出了内部代号「小绿机」的第一款产品,让三四百个家庭持续在用,然后给我们反馈。经历了两到三个月的共创迭代后,才推出了第一代正式产品。
在大的方向上,我们一直是清楚的,只是具体细节要跟着用户走。最开始我们模糊地定位在 3-6 岁或 3-8 岁,但共创用户里有很多小学科学老师,现在国家在小学每个年级都配备了科学老师,科学课的课时在很多地区已经远超英语了。老师们觉得这款产品非常契合从小培养科学思维的需求。基于这些反馈,我们把国内版的目标年龄段调整到了 6-12 岁左右,但海外产品继续保持 3-8 岁的定位,做极简体验。
国内版围绕科学素养培养丰富了功能,包括拍物品、观察细节、记录实验、拍摄现象等等,这些都是跟用户共创出来的。
Founder Park:国内 6-12 岁和海外 3-8 岁,这两个年龄段的产品在形态上有什么区别?
黄勇:区别比较大。6-12 岁的产品我们定义为一台相机,因为这个年龄段的孩子已经对相机有了概念。3-8 岁,我们的设计思路更接近闪卡,家长教孩子认知事物时会用那种卡片,我们从外观上也往这个方向设计,以后全世界的妈妈就不再需要买纸质闪卡了。
之所以让 3-8 岁的产品先出海,是因为年龄越小,全世界的教育理念和体系越一致。年龄越大,涉及国别、民族、文化、政策的差异就越大。所以我们在海外先推 3-8 岁,希望全世界的妈妈都能拥有一张我们用心打造的闪卡。
Founder Park:面向 6-12 岁的国内产品,你们预期的用户场景是什么样的?
黄勇:这个年龄段探索的维度多了很多。3-6 岁,孩子关注的以具体物品为主;6-12 岁,他不仅关注实物,还会关注现象。为什么开水会沸腾?为什么天边会出现彩虹?我们观察到大约 8 岁左右的孩子会特别喜欢拍摄细微的东西,比如叶脉、瓢虫的纹理,开始关注微小世界,对事物的观察变得更加多维。这本质上是认知发展推动他去关注更丰富的事物和现象。
同样是一个杯子,3-6 岁,我们告诉他这个杯子是红色的、是圆形的;到了 6-12 岁,他问的是人类为什么要有杯子,提出的是前因后果式的问题。驱动场景的核心是好奇心,而且好奇心是自然发生的,不可能预设。孩子进入「十万个为什么」模式,不停地问为什么,把爸爸逼得无从回答,只好让孩子去问妈妈,妈妈再踢回给爸爸。我们只是提供一个脚手架式的工具,让孩子能够得到支撑就好。
Founder Park:现在产品的用户使用时长是多少?
黄勇:我们 MVP 产品日均使用时长大概在 26 分钟,还不错。家长的反馈是孩子蛮喜欢用的,尤其是出去的时候。小孩子也确实需要一个自己的拍摄设备。
Founder Park:早期用户的反馈里有超出预期的地方吗?
黄勇:家长的反馈是「苦豆包久矣」,他们认可 AI 能带来很大帮助,但豆包你告诉它「我是 6 岁小孩」,它的回答也是洋洋洒洒说一大堆;而且下面紧跟着的还有短视频,本来是想让 AI 带娃,结果变成豆包带娃、视频带娃了。而且随着互联网上垃圾信息越来越多,家长的担心也越来越大。
所以我能明确感觉到,家长对一款可控、可信任的儿童版 AI 工具表现出了极大的热情。他们也知道下一代孩子肯定要用 AI,只是需要一个更安全的方式。
而且豆包的商业化方向不会针对儿童,它更多是广告、电商这块,那是一个更大的市场。我们就真正把这种 AI 带娃的价值落实好,把豆包对家长的教育成果接过来,补足其短板,尤其是内容可控、可信任这一点。
从孩子来说,他们最喜欢的就是拍,因为大人天天拿手机拍,孩子也想拍,有一个属于自己的拍摄设备这件事本身就让他们很开心。
Founder Park:所以你们是用真正给孩子用的、可信任的儿童版豆包这个点来打动家长的。
黄勇:直观理解就是这样。豆包有的功能我们可能都有,但我们比它更可控、更可信任、更适合孩子,我觉得就足够了。而且豆包的商业化变现不会针对儿童——它现在更多是广告、电商,那么大的市场要吃。
所以我们就把豆包培养出来的用户行为接过来。每一个用豆包第一次带娃的家长都有那种 Aha Moment,原来可以这样。这已经证明了价值,我们无非就是把短板弥补好,尤其是内容生成和交互时的可控性、可信任性。如果奇朵将来能被世界教育界记住,我觉得这一点蛮重要的。
Founder Park:为什么是被教育界记住?
黄勇:我们针对儿童的审校知识世界的建立,加上强约束推理的组合,让孩子在缺乏判断力的年龄阶段,既得到 AI 带来的好处,又处在一个安全可信任的环境中。我觉得这个挺重要。
Founder Park:交互上,在家长端那边,会在 APP 上收到孩子的拍摄和提问推送吗?
黄勇:对,孩子每一次提问、每一次拍摄都会像信息流一样推过来,家长可以点赞鼓励,也可以转发分享,比如孩子第一次跟一只毛毛虫对话聊了什么,就可以直接转发。这个点赞也会反馈到孩子那边。
儿童产品除了符合认知发展规律之外,还有一个很重要的点是:它一定是个二元结构的产品,同时有两个用户,孩子和家长。家长需要有一种合适的方式参与进来,而不是管控。
而且我们在产品共创的过程中还发现了一个更深层次的价值:这款产品是孩子人生中第一件以第一视角记录世界的作品。以前孩子的生活是被爸爸妈妈的相机记录的,不是他自己眼睛看到的世界。现在孩子用第一视角记录的这些内容,我们要让家长端实时收到。我发现,很多孩子的第一次,第一次跟一只蝴蝶聊了 7 分钟、第一次发现叶脉里的秘密,家长都通过这台产品知道了。这种体验对家长来说其实非常触动,因为孩子本身就是他们最重要的作品。
Founder Park:产品在端侧和云端的配合上是怎么做的?
黄勇:目前从硬件架构来看,我们采用的是强云弱端、强连接的方案。我们的产品用的是 LTE Cat 4 模块。端侧跑模型,一方面体验比云端差,另一方面硬件成本和功耗都会上去。现在蜂窝网络的连接成本已经极低,所以我们优先走云端。
我们在规划下一个版本时,考虑直接去掉本地存储、全部云存。因为这是一款实时联网的产品,而存储器价格高涨且波动剧烈,定价都难以把控,这是目前做 AI 硬件面临的很大挑战。
端侧主要做图像前处理。一张图片有两种用途:一是记录生活的照片,要尽量清晰;二是给 AI 分析的图像,需要传输高效稳定,类似大疆的图传逻辑,目的是什么,就做什么规格的优化。所以端侧要对两者做分路处理,用于 AI 分析的图像可以压得尽可能小,太高清反而增加流量成本和传输延迟。
Founder Park:云端模型的选择上有什么考量?
黄勇:现在主流 VLM 模型的参数体验基本都差不多,我们主要看的是物品识别的精度,比如能不能分辨这是蜜蜂还是马蜂。通用 VLM 在生物细分类目上还是比较有局限,基本只能识别到大类。所以我们在做一些自己的补充,通过购买公开数据集或领域内数据集来强化识别体验,微调或 RAG 都在考虑范围内。
识别精度是根本体验,我们算法团队在持续关注,拍是核心入口动作,我们肯定会把它做得越来越精准。
Founder Park:产品定价呢?
黄勇:国内 699 元,海外 199 美金左右。国内自带流量,海外是订阅制。另外还留了个卡槽,用户有自己的卡也可以插上去。
Founder Park:国内在是硬件付费的逻辑,考虑过其他商业化形式吗?
黄勇:国内通过内容订阅来变现可能比较难,我们更多考虑的是配件和云存储 + AI 技能订阅。
配件这条线,像远距镜头、微距镜头、实验拍摄支架等,配件本身还会带来耗材消耗。比如拍微距的时候,现实生活中找不到的标本,我们可以订阅提供观察玻璃片、实验素材包,这样就产生了耗材的持续消耗。
云存储这条线,影像类产品有个特点,影像是人的记忆,一般不会删。我们给用户提供 200GB 的免费云存,让孩子大量的第一次都存起来,之后 AI 剪辑、AI 成片、生成日记或漫画这类技能就可以按月订阅。举个例子,苹果用户之所以很难换机,最主要的原因不是体验,而是 iCloud 里的照片走不了。存储本身不应该赚钱,只要用户愿意存,后面的服务才是真正的变现点。
Founder Park:你们的 699 元的售价里既有模型 Token 费用又有存储费用,现在成本能打正吗?
黄勇:Token 成本这块,我们跟阿里和火山都在合作。目前 Token 成本以 License 方式给我们,一台机器一个价格一次性搞定,超出部分他们承担;云存储也是阿里一次性搞定。
硬件的逻辑和 Token 的逻辑其实有些悖论,Token 是个变量,硬件有明确的定价逻辑,是 BOM 表的逻辑。能不能被纳入供应链,关键是它能不能以明确的单价进入 BOM 表。很多做硬件的创业者对供应链的敏感度不高,容易被 Token 这个变量卡住,导致产品定价逻辑算不清楚。
产品本身应该具备的基础 AI 能力如果还要订阅,在中国市场应该行不通。这部分要么向后转嫁给供应链,要么作为研发投入——不要打在硬件成本里,要打在研发成本里,相当于买了一个技术服务。放在供应链里的是产品本身应该基础就有的 AI 能力,它的使用时长和 Token 消耗量不一定要反映在收入上——就像苹果摄像头好不好,看的是拍照数量,不会单独收费。
但更高级的延伸技能——产品概念之外的——可以按包月或 Token 方式订阅,这是合理的。你一开始说这是个 AI 相机,结果拍照识别还要收费,那不是偷换概念吗?就像苹果说拍照功能买完之后还要付钱,那就是坑人了。
这也是做硬件创业的难点——怎么处理 Token,在商业上还是挺考验人的。
Founder Park:跟火山、阿里的合作,还有京东,都是类似的商业逻辑?
黄勇:不,京东更多是渠道。火山和阿里更多是供应链——靠我们的模式、定义的人群和市场空间去打动他们,让他们接受我们的计价模式,Token 溢出部分他们承担——反正今年他们的考核指标也是 Token 量。
京东更多是因为我们发现这个产品偏「爸爸型」。孩子问很多为什么,妈妈的回答是问你爸。我们发现参与讨论比较积极的八成是爸爸,而京东是一个很典型的爸爸平台。
Founder Park:选择「十万个为什么」这个 IP,是自然而然觉得它适合这个场景,还是基于其他原因?
黄勇:主要还是我们分析后觉得「十万个为什么」这个 IP 更有影响力,也更适龄——对应 6~12 岁。在国内这个 IP 影响力很大,60 年培育了两三代科学家,基本上从小都读过。而且「十万个为什么」也面临着在 AI 时代如何进一步发挥的问题,我们跟他们一碰即合,就开始做这个事情。
Founder Park:选择这个 IP 合作,主要是打动家长,还是对孩子本身也有价值?
黄勇:两个层面都有。首先是,它帮助打通家长认知,家长对它有基础的信任感。更重要的是,我们致力于打造可信任的儿童 AI,《十万个为什么》的背书让家长直觉上就感受到:这个东西不会乱说,它是权威的。对家长来说,这个 IP 传递了两个商业价值:一是已有的知识认知基础,二是可信任儿童 AI 的背书。
至于孩子,他们可能不那么熟悉这个 IP 本身,但这个 IP 契合的是他们这个年龄自然涌现的好奇心和为什么。
Founder Park:儿童 AI 产品最大的风险是内容不可控,你们怎么解决这个问题?
黄勇:如果直接把大模型基于互联网世界知识无过滤地推理给孩子,那是极度不负责任的。一年前用豆包带娃还算放心,今天我自己都分不清楚它说的内容的对错了。
所以我们先建立了一套可信任的知识底座。儿童行业里存在一个经过出版审校的知识世界,泛知识领域有《十万个为什么》、《小牛顿》、《大英百科全书》、DK 等等,这些是经过严格审校的出版物。我们搭建了一条生产线,把这些出版物的知识结构系统化,通过三审三校的方式构建出一个巨大的约束推理参考知识库,再做 RAG 组合,实现可信任、可控制的推理。
简单说,我们不是把大模型的知识直接透给孩子,而是先在地上建了一座图书馆,AI 在跟孩子交流时,优先从这座图书馆里取材,这是奇朵的强约束推理。
我们有个出版 AI Agent 的流程处理,会先抽取出版物的知识结构,再用智能体模拟原书格式补充更丰富的问答,因为原书的内容条目远不够用。测试到 98% 的问题可以被覆盖之后,通过审校模型进行三审三校:AI 做第一审,我们内部抽 2% 做二审,合作 IP 的编辑再抽 2% 做三审。审校完成后向量化,交给智能体做约束推理。
《十万个为什么》原书可能只有 6 万个问题,我们补充到了 200 万个,补充率非常高。我们的做法是分了几种 Agent:内容生成 Agent、内容审查 Agent,再加众包人工审核,确保整个知识体系是经过完整审校的。因为加入了 AI,整个速度非常快,如果纯靠人工逐条生产 200 万条内容,要花很长时间。
Founder Park:如果用户问了一个知识库没覆盖到的问题,怎么处理?
黄勇:一般当知识库积累到几百万条问答之后,基本能覆盖 98% 的问题。剩下的 2%,AI 会直接告诉孩子「这个问题我还没学过」,我们把它抛回生成 Agent 重新生成,再经审校流程入库,形成持续迭代的闭环。整个知识体系有点像一个大型 RAG,完全经过审校,同时持续接收用户未命中的问题反馈,不断丰富迭代。
儿童产品与其乱说,不如诚实地说不知道,哪怕牺牲一点体验也是值得的。
Founder Park:「十万个为什么」算是你们的内容护城河吗?
黄勇:我们和 IP 之间是合作兼解耦的关系,知识底座是我们自己的核心能力,我们在自己的智能体之上匹配不同 IP 的风格。比如 DK 和《十万个为什么》的风格就完全不同:《十万个为什么》是引导孩子提问,DK 是更多引导孩子观察。未来我们的商业模式可能类似高德地图的语音导航,底层的地图数据是我们自己的,但你喜欢哪种导航风格,就订阅哪个。
通过与《十万个为什么》、DK 这些历史巨人合作,也许未来奇朵或聪明口袋本身就会成长为「未来的 DK、未来的《十万个为什么》」。生成式 AI 对传统内容生产是一种颠覆,但这个颠覆是长期过程,我们现在做的事,是给这个长期过程打底。
Founder Park:那这套技术方案算是你们的壁垒吗?如果竞品也想这么做,你们能领先多长时间?
黄勇:是小壁垒,而且它持续积累数据,先发优势加上用户回馈会形成反馈飞轮,内容积累加用户数据反馈,是一个持续往前跑的正向循环。其他产品应该也是这样做的,至少目前我没看到有比我们更巧妙的实现方式。
Founder Park:你们的竞品是什么?小天才、拍学机,哪些是你们真正要对标的?
黄勇:硬件方面,今年拍学机很火,各种品牌都在开学季出来,他们更多是从硬件角度出发。但我们更多是从内容和智能体本身出发,我们不会做一款容器性的产品,而是做一款躯体性的产品,形状上可能有些相似,但价值出发点完全不同。
任何新品类刚开始都很卷,大家都觉得有机会,卷一个周期后,90% 的人自己卷不动就撤出了,剩下有积累、有差异化、有品牌化方向的 5% 到 10%,才在第二阶段形成真正的发展机会。硬件每个新品类基本都是这个规律。
像小天才,我更觉得他是在帮我们培养用户,小天才这五六年,在硬件上只折腾了一件事:各种角度的拍。一家做产品很严谨的企业持续这么多年只折腾摄像头,说明拍真的是有需求。那我们就把拍做好,做得比它好。手表形态因为穿戴和便携的限制,拍摄体验本来就不会太好。
Founder Park:万一小天才也出一款类似的儿童相机呢?
黄勇:那我觉得他和我们应该都是能进决赛的选手。这个市场不是奇朵发现了就只有奇朵一家,一定有个过程,关键在我们能不能在最后阶段取胜。取胜靠的不是一味进攻,要有自己的思考、自己的护城河、自己的防御力。把自己的内功做扎实,本身就是最好的进攻。
Founder Park:跟竞品相比,你们最大的竞争优势是什么?
黄勇:我们最核心的竞争优势是拍和问这两个体验点:第一,持续把审校知识世界加上强约束推理投入进去;第二,持续迭代拍摄精度、识别精度和影像成像的儿童化体验。你拍得够不够准、够不够精、够不够严谨?你问的引导教学,能不能激发孩子在交流过程中获得更多知识和启迪?这才是这个赛道核心的竞争点,也是我们需要持续投入的方向。
当然,做 C 端项目品牌也很重要。这的确是我在学的一门新课——从 ToB 到 ToC,做用户洞察、做产品都好说,品牌认知是我需要通过实践去补的短板。我觉得未来真正的复利是:在技术有一定领先壁垒的基础上,品牌心智才是复利。AI 都这么发达的情况下,世界上可能只有那么几家公司能说自己有技术壁垒。
尤其是海外,品牌资产非常重要。外国用户对品牌这件事非常认可。而且海外有独立站,用户数据可以落到自己手里,形成天然私域;国内所有品牌都要依托抖音、天猫、京东其他平台,数据永远无法完全落到自己手里。所以如果我们 Day 1 就想做 global 公司,建立品牌心智这件事非常非常重要。
我们 IP 合作的策略是:借助有影响力的 IP 为我们做背书、吸引他们的粉丝,同时我们也需要它的内容。但最终目标是让「聪明口袋」或海外品牌独立成长,当消费者想买一款 AI 儿童硬件,第一反应就是我去搜搜聪明口袋最近出了什么新品。
Founder Park:你们希望奇朵(聪明口袋)这个品牌给用户传达什么感觉?
黄勇:我们的 slogan 是「爱学习,更爱生活」,想传达的是:学习不是痛苦的过程,而是有趣、值得享受的过程。这也是 AI 时代学习的新范式,游戏化、好玩,才是学习应该有的样子。
我们的吉祥物是一只小狐狸,设计得比较调皮可爱。一只从来没有经过应试教育拷打的狐狸。
我们现在针对的家长大部分是 90 后,他们给自己买东西是颜值驱动的,给孩子买东西同样如此。颜值这件事在这个时代已经被验证了。所以在视觉审美上我们花了很大的工夫,包装和产品细节都很讲究。持续购买配件这件事,就要看孩子能不能长期用下去,所以体验上一定要尊重孩子的发展规律。
Founder Park:你们团队现在大概多少人?
黄勇:目前 40 多人。硬件、算法、内容都有,但也有很多合作的外包公司做一些事情。
我们把产品定义和重要的开发放在内部——软硬件结合、软件迭代、内容这些全都能自己做。一些垂直领域更专业的事情会外包——比如我们没有工业设计师,但有硬件产品经理,工业设计就交给更前沿的设计工作室。核心产品定义、核心迭代抓在自己手里。
Founder Park:现在还在招人吗?
黄勇:在招。尤其是内容营销能力。接下来产品不是问题,我们特别需要把内容营销能力和产品力同等对待。
Founder Park:内容营销岗位具体要做什么?
黄勇:第一是品牌向——知道怎样梳理产品卖点,转化成用户能理解的语言。这个产品比较新,有教育成本,怎样快速让用户理解很需要功底。第二是现在抖音这些平台消耗素材很快,需要能持续产生好内容的人——不是今天有个灵感搞一个,而是能持续产出。这个能力现在挺稀缺的。
Founder Park:AI 硬件和儿童 AI 硬件的核心区别是什么?
黄勇:两个。第一,内容。普通消费硬件靠功能驱动,儿童产品一定是内容驱动的——无论表现为 APP、图书还是硬件,本质上都是内容作品。这是第一性的东西,无论内容来自传统数字化出版、图书出版,还是生成式 AI 加审校,它都是内容作品。
第二,实体设计对儿童发育规律的尊重。我们做每一个产品都要请四五个教研专家——儿童心理学专家——来审核。我们真的怕闹笑话。从做产品的角度来说,大家不都追求留存吗?那简单,丢个手机给孩子,数据保证好得一塌糊涂。但能这样做吗?肯定不行。
Founder Park:内容为什么是第一性的?
黄勇:儿童的学习过程就是看到、听到、内化吸收。他吸收进去的东西一定要是好的。如果只是有个功能——比如只是个相机去拍——孩子在里面其实没有意义。但如果每次拍摄能转化成一次认知迭代、认知发展,对他的成长就有意义。
Founder Park:整体来看,现在做 AI 硬件,是比以前更容易了还是更难了?
黄勇:做硬件肯定是更容易了。我们比较看重的是 Token 成本的持续下降,Token 成本足够低之后,它作为一个变量对产品的影响和定价才有可控性,才能真正被纳入硬件供应链管理,硬件公司做这件事才更有把握。
但总体来说,对硬件公司的要求也更高了。一家公司需要同时具备软硬件结合能力,加上内容理解能力。我们最开始想招一个产品经理就够了,后来发现不行,要拆成软件产品经理、硬件产品经理、内容产品经理,甚至还要拆得更细。需要非常多维度的能力,才能把一件事做好。
Founder Park:虽然模型能力到了,但挑战也更多了。这两年出现了很多 AI 硬件公司,肯定有很多会被淘汰,他们会因为什么原因活不下去?
黄勇:只要是套壳的可能都不行——模型套个壳就去做,本质上会陷入同质化竞争,在第一节互卷的时候就属于那 90%。
Founder Park:硬件的套壳怎么理解?
黄勇:硬件本身根本不是壁垒,在我们深圳人看来根本不是问题。
Founder Park:对这两年进入 AI 硬件赛道的人,你有什么建议?
黄勇:给做软件或内容出身的人:做硬件最大的风险点是基础平台——主控芯片平台。如果不熟,风险最大。你得先搞清楚自己是在做影像、做音频,还是做多媒体播放类的产品。如果在芯片选型上特别在意成本,就很容易选错平台。芯片平台选错了,整个体验最后会发现要推倒重来。
现在消费类 SoC 细分得很细,每个大场景都有对应的主控平台。一旦选错,不光浪费钱,还浪费时间。很多做软件或做内容的进来做硬件,经常被卡在这里——不知道自己需要什么样的计算平台,选型很盲目,或者听方案公司推荐就选了。比如很多做拍学机的,用了某些做蓝牙和音频出来的芯片,性能弱,后续迭代就很难往前推。讲究性价比没问题,但芯片的方向要对。
传统硬件的人可能最容易做的就是接口——直接对接模型 API 套个壳。如果团队之前没有介入过 AI 开发或内容开发,很容易就是简单套壳,没有自己核心的能力,沦为模型能力的简单脚手架。
要问自己:你的主要交互方式是什么?听和说,还是拍录,还是点击播放?在这个核心交互上,你的技术和体验积累够不够深?
做儿童教育的东西,笨一点没关系,下的功夫厚一点,反而是壁垒。
文章来自于"Founder Park",作者 "Founder Park"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner