Plaud 在招兵买马,疯狂招人。
他们去年赚了一亿多美金,今年能赚两亿多。
怎么理解这个数字的价值?如果你在国内融资,几乎不可能拿到比这更多的美元。
不过 Plaud 没那么需要融资,它是全世界最成功的 AI 硬件 Startup。约 150 美金的录音卡片,卖给了全球超过 100 万人,引来大厂效仿,甚至还有美国团队跑来中国找供应商。
你不好奇吗?为什么?
莫子皓是 Plaud 中国区 CEO,也是负责 AI 产品和研发的合伙人。加入之前,他「看到了真实的数据,一年增长四倍。这就是 PMF。」
硬件的销售带来的用户,稳定、真实、有粘性,还高净值。他们有真实的需求,用 Plaud 记录了密度和价值极高的信息,对他们个人至关重要的信息。所有这些,用今天流行的话说,就是 context。
过去的东西任由行业 follow 和 copy,对 Plaud 来说,这些竞争来得太慢了,他们无瑕顾及。
我们更好奇的是,在 PMF 的助推下,在这丰沃的用户 context 土壤上,Plaud 可以做什么?他们「误打误撞」发现和解锁的下一个关卡,是什么?
以下是我们与莫子皓的对话内容,经 Founder Park 编辑整理。
艾之:Plaud 一直挺低调的,最近开发布会,接受采访,为什么?
莫子皓:想招人。这次发布和采访,很大的一个目的是方便我们招人。我们需要更多志同道合的硬件和软件工程师。
销量方面倒没有那么刻意的追求。我们一直在警惕一件事:我们的商业模式和收入都是脆弱的,如果不能给到用户最前沿的智能,那我们赖以生存的东西,可能在下个月就过时了。所以无论卖得好与不好,都是暂时的,真正重要的是利用最强的智能为用户提供产品价值。
艾之:所以销量上很自信。
莫子皓:恰恰不是自信。应该说是我们能够清醒地看见行业在快速变化。
艾之:这话背后有很多 context,我们后面展开聊。先说说你在 Plaud 负责哪些工作?在加入 Plaud 之前的经历是怎样的?
莫子皓:我是公司合伙人之一,负责的板块主要是 AI 的产品研发、商业化与增长以及整个中国区的 CEO。硬件、软件、营销品牌等方面都有其他专业的合伙人负责。
过去的经历,头 10 年算是移动互联网的连续创业者,最近几年做了很多大模型领域的尝试。
本科毕业于中山大学,保送了北大光华的金融硕士,但本科毕业的时候就已经开始创业了。2013 年,公益项目,融了三轮,19 年被轻松筹收购,后来在轻松筹负责了所有的业务。
之后加入暖哇科技,健康保险领域做了四年,是创始合伙人,负责所有互联网相关业务,去年底公司准备上市,一切都进入正轨,就想出来做点有意思的事情。当时在暖哇已经做了一段时间大模型,出来以后因为一些医疗公司的事情认识了小川总,加入百川负责产品和运营。
跟许高(Plaud 创始人)在 2020 年轻松筹时期就认识了。他一开始找我做 Plaud 中国区的业务,恰好我这两年都在搞大模型产品,就整体负责了 AI 产研和增长。
许高,佩戴 NotePin,Plaud 品牌宣传片
艾之:在百川做 AI 产品,有什么不一样的 learning?
莫子皓:在百川的时候,有一个重要的 learning。大家都知道,国内没那么多卡,大模型想追上海外是非常困难的,做产品吧,看大家都在抄 Manus,我和身边的产品朋友都不太愿意去抄。当时做医疗的时候发现,极致的个性化和 context 的获取,一定是最大的壁垒。
当时在百川,看到了医疗走到线下,有足够多的 context,也是有很深壁垒的。
回到大模型上,general(通用能力)的提升还远远没有结束,现在不应该去做 vertical(垂直智能),所以在 general 的层面上做 offline context(线下的上下文),这是我的核心认知。
艾之:在外面看 Plaud,和加入进来之后再观察,对这家公司的感受有什么变化?
莫子皓:我加入之前,身边的朋友没有一个赞同我过来。大家在外面都说,不就是个 AI 录音笔吗?到现在我也不想去辩论,辩不赢。你说它是个录音笔,行,我觉得也是,但它能卖得这么好,能做出来差异化,肯定有原因。
我加入的核心原因,是因为看到了增长的真实数据。一年涨 4 倍,这是个硬件啊。作为「上个时代的遗民」,我们经常开玩笑说,如果能穿越回去,就是给黄峥付钱我也想去拼多多打工。你看到这样的数字,真实的数字,不用再质疑任何逻辑。所以其实当时我没有特别多的判断,我相信数字,我相信自己多年创业下来的直觉。
艾之:为什么能够有这种幅度的增长?
莫子皓:这就是 PMF。
艾之:一种这个时代很少见的东西。
莫子皓:大家都是经历上个时代的人,我们都知道,PMF 不是设计出来的,它有,就是有。有了 PMF 以后,事情会撵着你屁股走,回过头来你说设计了这个设计了那个,都是扯淡,哪有那么多时间设计,事情都做不完,每天交付正确的事情,日积月累,有 PMF 就会有正向循环。
问题是 PMF 什么时候触顶?那就是产品的 market size 的问题。
艾之:那个 market,指的是录音笔的 market 吗?
莫子皓:这件事可能从行业视角很难看清楚。可以说,行业里大家对我们的理解,和我们想做的事,以及用户用 Plaud 真正获取的价值,是 mismatch(不匹配)的。
Plaud 做产品的方式很像移动互联网早期的时候。后来大家都会看市场,所谓的「市场驱动」,这种思维束缚、拷打了大家很多年,以至于做产品、做产品经理,都不是一件像以前那么 cool 的事情了。但移动互联网早期的时候,最早那批做产品的人,大家是在定义新的技术、新的平台。好的产品不是被市场推着走的,而是源于团队的品味和信念。我们坚信产品就是那个样子,市场买单,反过来又验证和强化了我们的信念。
我们有一些主观判断。在这个阶段,我们不 care 很多细枝末节的功能优化,比如做个 todo list,做个 PPT,你用最差的模型都能做这些,但是 GPT-5、Claude 和 Gemini 都摆在那里,你应该做只有最强的模型才能做到的能力。
「语言是智能的边界」,我们一直在内部强调这件事。人与人之间的对话,蕴含了大量超过表面文字的上下文、潜台词和智慧,今天最前沿的模型有能力挖掘这些价值,而不是简单地把 1 万字总结成 500 字。
艾之:核心是挖掘「对话」中的价值?
莫子皓:有个有意思的事。以前许高面试,就喜欢拽着人问,「你觉得对话是什么?」大家都懵了,这是什么意思?要是回答的不好,许高就不想聊了。当时比较极端,比较早期,人少的时候,大家需要对齐一些信仰的东西。
艾之:现在不这么问了?
莫子皓:(笑)现在我们自己对这件事的理解也更加具体了,对人才也有更多专业性的要求,没那么极端了。
艾之:Plaud 卡片形态现在被验证非常成功,从 Note 到 Note Pro,没有特别大的形态变化。最初这个形态是如何确定下来的?
莫子皓:最早是一个更小的卡片(大小接近 iPod Nano 6),当时还没有 GPT。最初许高在寻找创业方向的时候,在手机的应用商店里发现 Google 的语音转写 app 下载量非常大,但产品体验很差,所以瞄准这个市场,想做一款 AI 录音笔。国内当时最好的两个做录音笔的公司,一个是讯飞,一个是搜狗。
很多人会把 Plaud 的成功归因为贴在手机背面 MagSafe 的卡片形态,但它只是成功的因素之一。我们现在 NotePin(胶囊挂坠形态)的日出货量和 Note 是一样的。累计销量当然还是 Note 更高,因为 Pin 是第二年发布的。
但当下的销量数据已经可以验证,虽然贴在手机背面的形态很成功,工业设计是很重要的因素,但不同的人对这件事有不同的场景和不同的产品形态需求。
更重要的是,语言是有价值的,我们想做的是用户 offline context 的传感器。
艾之:没想到 Pin 的出货量和 Note 一样了。什么样的人在买 Pin?
莫子皓:在办公室时间少、更专业的用户,比如销售、保险经纪人。我们在国内的 ToB 合作,90% 的订单都要的是 Pin,很多人冲着挂坠形态来的。因为他们在沟通时,别在身上比拿出手机更方便。
其实许高和我本人都更喜欢用 Pin,不过最近因为 Note Pro 发布我用得比较多。
艾之:还挺不一样。两款产品我们都用过,还是更喜欢 Note 一些,它在线下社交中的侵入感比较弱。Pin 的确更适合明确要录音的工作场景,不过相对来说行业关注还是比 Note 要少一些。
莫子皓:(笑)可能是因为还没人抄,大家还在攻坚。
艾之:做出来 Note 形态的公司还蛮多。面对这个市场变化,你们的内心状态是什么样的?
莫子皓:说实话,其实内心没什么波澜。回头看看移动互联网,一个行业有增长,没人抄,那还是中国吗?
艾之:所有要做这件事的公司里,有没有让你非常惊讶的?
莫子皓:有个电动牙刷公司也要做,我确实没想明白。
艾之:钉钉说他们的产品不到四个月就做出来了。你判断下,其他团队要赶上你们,需要多少成本?
莫子皓:如果要做到同样水平,100 人以下的团队不可能做到。如果人没我们多,钱没我们多,信息没有我们全,还没有我们努力,凭什么能赢过我们?我们趟过的坑,大家都会趟一遍。还有数据合规认证,在全球市场有 GDPR 等标准,这都不是人和钱的问题,就需要很多时间。
最重要的是,在这个时代,真正优秀的人才不会加入一个做抄袭产品的团队,他们会追求有品味、有意义的事情。
艾之:Granola 的创始人说对他们来说最大的竞争对手是 Apple Notes,你们内心真正的竞争对手是谁?
莫子皓:Granola 说归说,对他们有威胁的肯定不止 Apple。
在我们看来主要的竞对有几类:
协同办公,Notion、Slack;
还有到业务场景的,Zillow、Salesforce 这类;
还有一类,苹果、微软、Google。大家会逐渐意识到,线上的数据不够,context 越来越少,当他们决定走向线下的时候,逻辑上就是我们的竞争对手。
艾之:推演过他们会怎么做吗?
莫子皓:推演没用。我们选择了软硬结合的道路,硬件是我们的主场。大疆、Insta360、拓竹已经证明了中国供应链在这方面的优势。剩下的 AI 软件部分,就看我们能不能干得过硅谷了。我这个人有一些 ego,我觉得这正是我们应该比他们强的地方。
莫子皓,据说还叮嘱同事,咱们发布会要穿的正式一点
艾之:(笑)自我认知也很清晰。你是一个互联网软件背景的人,来到一家硬件公司,会水土不服吗?
莫子皓:Plaud 是我待过的员工纹身最多的公司。这里的人非常多元:穿拖鞋的、拉着狗的、搞嵌入式开发的四五十岁大叔、穿西装的麦肯锡背景产品经理、一身纹身卖海外产品的营销同事……大家完全不一样。
但这让我觉得很有意思,像回到 10 年前的感觉。当年刚进互联网,就是想认识一些不一样的人。现在互联网公司里,大家跟一个模子刻出来似的,没以前有意思了。
Plaud 的员工流失率很低,大家还很努力,这是一种高速增长中的公司的 vibe。它让我想起来当时水滴公司上市的时候,去他们办公室,亲眼看见大家赶着老板上厕所路上的时间汇报工作。那个画面我到现在记忆犹新。
艾之:你这么说还挺令人怀念。
莫子皓:大家有共同的目标,有明确的反馈让大家一起努力,这种氛围特别重要。我们聊投资的时候经常说,一家公司值不值得投,你去办公室看一眼就知道。
艾之:我们已经体验了很久 Plaud 3.0 版本,现在这个形态是你们最终想要做的东西吗?
莫子皓:不是,我们还在迭代。即便是正式发布的版本,也只是达到了我们想做的事情的 30%。
艾之:有几个更新点可以展开聊聊。Plaud 3.0 更像是一个笔记产品了,录音的时候,手机可以在 app 里面记录文字和图片。你们准备把 Plaud 做成笔记产品吗?
莫子皓:不一样。首先 Plaud 真的不止是一个做录音笔的公司,我们会在现在的产品上更新更多的功能,但目的不是笔记产品。
用户很重要的一个场景是开会的时候,拿个纸和笔记一下重要的东西,有些人可能就有带着本子、电脑开会的习惯。这是一件非常直觉的事情,所以我们加上了全模态,文字、图片都可以记录,并且有记录时的时间轴。
这里 Granola 给了我们一些启发,但我觉得 Granola 这个产品还是有些问题,那种左侧记笔记,右侧能展示出来的设计,是不 make sense 的。
Granola 的用户人群有很多投资人,VC,他们开会的时候经常是在拿信息。但其他领域的人,很多时候开会我们记录的是灵感,灵感有时候和开会内容几乎不相关,它就是你突然想到的一个东西。
对话这件事,在不同场景下对信息处理的需求区别非常大。我们在这里做了很多设计。
艾之:还有一个有意思的新功能,Press to Highlight,一键标记。这个是实时反馈的,我现在按,立刻就能在 app 里看到按下时候的关键信息是什么。
莫子皓:对。这是我们软硬结合的一个很重要的功能。
我们在沟通的时候,都不希望打断对话的 flow,因为那个状态很重要。如果有什么值得记录的东西,你当场掏手机出来,打开笔记软件或者微信文件助手记两句话,这个动作对沟通是一种打扰。
Press to Highlight 是让用户只要按一下硬件按钮,就能在录音中打上时间戳,这 30 秒的内容会自动提取,并且在最终的 reflection 总结中展开,你能很方便地看到打时间戳的原文在什么时候。
艾之:AI 能够知道用户认为哪个信息是有价值的,值得 highlight 的。
莫子皓:对,这就是我们的产品哲学:大模型和人的意图(intention)做对齐。
现在有很多随身记录的设备,它从早到晚可以持续记录,但记录之后你发现,其实没有给到什么信息增量。
核心原因是什么?举个例子,之前版本的 Plaud,用户「开始记录」和「结束记录」这两个按键行为,本身蕴含了非常重要的价值,它意味着录入的内容是重要的。
很多产品在记录的时候,没办法拿到用户的 intention,不知道自己在记录什么,不能理解用户的侧重点,没有 context 帮助 AI 加深对用户记录信息的理解。
我们在做软硬结合,以及未来产品设计的一个很重要的方向,就是如何衡量人的 output(输出)和 intention(意图)。Press to Highlight 这个点击的动作,就是一种意图的体现。
录音时的文字和图片笔记也是一样。比如房产经纪人拍下房间布局,或者参加发布会的时候拍一页 PPT,后面 AI 总结的内容就可以根据图片的位置和内容生成更丰富的信息,图文并茂,这些都是 context。
把人的意图、想法,以及不同维度的输入,都变成一个完整的上下文,这就是 Plaud 不止是录音笔的出发点,也会为我们之后做其他硬件产品做一些预演。
艾之:3.0 版本里,我发现一个录音文件可以生成并保存很多个总结、分析的内容,我现在录完一段以后立刻用几个模板同时生成总结,生成出来以后结合着看,信息比以前丰富很多。
莫子皓:多模板的输出也是一个核心的升级。很多朋友没用过 Plaud 的话,了解更多是会议总结的功能,全网有那么多会议纪要产品都能做。
但 Plaud 其实有几千个模板,一部分是我们团队准备的,还有很多是用户自己写的。其中有一些很有意思的模板,比如对话中的「话语权流动」、「言外之意」、「虚张声势」等等。这些跟会议总结没什么关系,但它关系到用户的决策。
模型能够理解,一段对话中,谁占据话语权,谁话里有潜台词,谁在自吹自擂。这是模型超越人的地方,这是我们希望 AI 帮用户去做的事情,超越人的认知能力——而不只是给你生成个 todo 让你知道自己接下来要干什么活。
Plaud 社区中一些不太 Summary 的模板
艾之:有意思,这个对话虽然是我自己聊的,但我其实能够捕捉和理解的信息是不完全的,AI 听了同一段对话,能有更深层的理解。在处理对话信息中,AI 在哪些方面比人更强?你们是怎么理解这件事的?
莫子皓:主要有三个层面。
第一,超长的记忆力和超宽的注意力。记忆不用说,它可以尽量详细地总结出对话中的信息。注意力机制让 AI 能够在一个 2 万字(约 1 小时高密度)的对话中,把信息串联起来,很多时候你聊到最后,想不起来开头聊的话题和信息点,AI 能够帮你串联。把这 2 万字对话做成 5 分钟能看完的 note,这不是在做总结,而是在从不同维度做信息抽取,不仅仅是表面信息,还有底层的因果关系。
第二,模型会从不同角度思考和处理信息。它可以从哲学的角度思考你的输出,从精神分析的角度理解你新认识的朋友,或者看看你的客户没下单的原因是什么。举个有意思的例子,我用 Plaud 记录一次开会,我说了一段以后,团队同学说「好的」,回去我看模型的分析,AI 告诉我这个同学其实没听懂。我去问他,确实没听懂。我们还在做一些尝试,在 AI 的「全知全能」和人的认知范围中间,可以用 Agent 的方式让 AI 做一些探索。
第三,AI 应该能够引导用户做更好的输出。我们现在有 Ask Plaud 功能,都是用户问 AI,几乎所有 AI 产品都是人问 AI,为什么不是 AI 问我?Ask Plaud 的下一步就是 Plaud Ask,它应该向你主动提问。我们总是教 100 分能力的模型去做 60 分的事情,为什么不是 100 分的模型指导 60 分的我做事?模型比人更厉害,人把 context 给到模型,是为了模型更好地知道我们。这个方面我们在做一些很有意思的功能。
艾之:Plaud 主动提问,有点像 ChatGPT 每次对话收尾会向用户提一个问题,也是确认用户的 intention。
莫子皓:之前我在百川的时候就提过一个疑问。你看所有的 chatbot,用户一句话,模型回答 100 句话,这里有巨大的工程和算力。为什么不反过来,模型一句话,用户想说 100 句话?我觉得这里有巨大的空间。
在大模型时代,我们要衡量的不是 input,而是 output。因为输出可以展现一个人的知识能力。当模型听一个人在他的工作场合开了 10 个小时会,模型绝对知道你是个职场新兵还是老油条,它一定能知道你是个优秀的管理者还是指手画脚的老登。所以以前是大模型公司的人给 AI 写 benchmark,然后训练它,后来模型的智能到顶了,就应该变成我们给 context 让模型评估我们,给我们做 benchmark,然后它就知道怎么更好地指导我们。
艾之:让模型去评估(evaluate)我们,这是 Plaud Intelligence 在未来一段时间内的思想主线吗?
莫子皓:是的。我们做的所有 context 的「捕获」,不是为了让我们更好地用模型,而是为了让模型更好地「使用」我们。
艾之:你很喜欢反过来思考。在实践这个思想的过程中,有什么新的 learnings 吗?
莫子皓:我觉得所有东西都是因为我们「看见」了,所以选择这条路。
在 Gemini 2.5 Pro 发布后,我认为它在超长文本上绝对是能做出比人强很多的事情,但这个能力没有被很好地使用。我把自己录制的 18 期炒股播客、交易记录单和个人 prompt 喂给了它,它对我进行了无情的「拷打」(笑),指出了我因为社交媒体压力产生的一些非理性交易行为。它能把一些看似无关的事情联系起来,做出人类无法做出的、但又非常 make sense 的分析。如果这个能力用在工作场景,将会是爆炸性的。所以我把这个 demo 给内部一看,大家立刻决定 all in。
艾之:你们对 Plaud 的产品定位也在一直演进,从 Voice Recorder 到 Note Taker,现在呢?
莫子皓:现在是 Work Companion。
我们尽可能地避免用「助手」这个词,因为「助手」这个词会让你觉得你比它高一等。而 Companion 是平等的,它是你的一个工作伙伴,你可以理解为他的知识水平跟你一样,甚至比你更高。要成为一个人的「幕僚」,不仅需要聪明,更需要长期的陪伴和深入的了解,也就是海量的 context。
Work Companion 不会帮你做 PPT 或者 Todo List,但它会告诉你战略层面的关键决策。
艾之:你们对于用户人群有更精细化一点的定义吗?
莫子皓:我们用「三高」来定义:
语言媒介占比高,我们服务的是那些主要工作不是坐在电脑前,而是以语言作为主要工作媒介的人。我们跟飞书不是竞争对手,也打不赢飞书,飞书的产品做得特别好。但是这个世界上很多人工作不是坐在电脑前,他也不需要写文档;
行业知识浓度高,所在的行业需要大量的专业知识;
决策杠杆高,决策杠杆高不是说他的位置高,而是他做出了正确的决策时带来的收益大和变化大。比如房产经纪人,他们一年可能只成交几单,每个决策都很重要。
艾之:你刚刚定义了 Plaud 服务什么样的人群,怎么去进一步拆解这些人群真正底层的一些需求?
莫子皓:我们要主动提供价值。就像维特根斯坦说的,语言的边界就是思想的边界,你无法描述你不知道的东西。对于每个用户来说也是一样,一个 60 分的用户问不出 80 分的问题。但模型基于你的 context 足够了解你,知道如何给你提供 62 分的价值,比如指出你的逻辑错误、识别风险、分析人际关系等等。
艾之:未来,个人的上下文会以什么样的形式存在? Memory 的存在形式是什么?
莫子皓:这是我们后面在做的一个重要工作方向:如何去组织用户的 context 和使用用户的 context。但仅限于工作领域,我们做得再好,也不会帮用户点外卖。 Plaud 就像是一个 Work Companion,一个由模型的脑子和用户的记忆组成的数字分身。
核心在于 environment。每个人的上下文环境(Context Environment)本身就是一个培养皿,一个让 Agent 自主演进的平行世界。
Agent 的定义在于,首先它是一个客观存在的东西;第二,它是可以基于环境的变化自我决策下一步怎么做;第三,它不一定完完全全由人的行为来决定它要开始工作。我们现在的所有 APP、所有的应用,都是你的注意力的起点,但 Agent 不是。如果我们承认自由意志是幻象,那么具备这些属性的 Agent 就拥有了完备的生物属性,它就应该放在一个生态环境里面去生长。那么你自己的 context 就是一个最好的环境,让它去生长。
艾之:要设计一个对 AI 友好的「培养皿」?
莫子皓:可以这么理解。这也解释了为什么在我们的哲学里,幻觉是个好东西。对于 Ask Plaud 这种需要准确性的功能,幻觉是坏的。但当 Agent 需要突破你的智能边界时,幻觉就是一个 New Idea。生物世界没有突变(mutation),就没有人类。
要让这个培养皿真正 work,你就要必须允许 Agent 产生幻觉。当它发现要解决一个问题,现有工具和指令都不够,必须创造一个新 Agent 才能完成任务时,它就会自我复制。这就是 AGI 的雏形。 当然,我们还不知道怎么做到,但这在逻辑上是合理的。移动互联网的思维是你放进去 5 个 Agent,就永远是 5 个。而幻觉,给了它变成第 6 个的可能性。
艾之:拉回来,下一步的计划是什么?
莫子皓:我觉得从底层来看,就是跟着大模型的能力走。模型能力在变化,我们就会变化。我刚说的东西有可能明天就推翻了,因为模型能力的发展方向跟我们完全不一致,或者说模型能力的展现方式以一种我们所无法理解的方式出现了。当那个时候出现的时候我们就要调整自己。
但我想表达的点在于,只要模型的能力增长还在急剧变化,我们的需求就不会做完。
艾之:第一代产品发布两年多了,为什么现在进入中国市场?
莫子皓:我们意识到自己在做的事情是足够大的。其实我们的急剧扩张和做中国区的决策是同步的。当你突然发现自己误打误撞地做了一个在大模型时代有可能改变世界的产品时,没道理放弃一个 14 亿人的市场。没有道理的。
当然,招人很重要,很多想做的事情做不完,希望优秀的人才能够加入我们。
艾之:这个同步进行的决策背后,是什么让你们做出这么重要的决策?
莫子皓:我们发现了超长文本处理的「Cursor 时刻」。我们发现 AI 能做的远远不只是总结。
在我们公司内部文档里,以前我们对信息处理的三步总结是「Record, Transcribe, Summarize」,终点是 Summary。但现在,我们意识到 Summary 只是信息获取的终点,却是工作的起点。我们的新 Slogan 是「Capture, Extract, Utilize」。
艾之:从处理信息(ASR、文字工作),升级到了更高维度的价值利用。
莫子皓:是的。我们内部常说两句话:「Summary 是信息获取的终点,是工作的起点」,以及「工作不等于办公」。这决定了我们投入和努力的方向。我们服务的不是所有人,而是那群「三高用户」,他们需要的是更好的思考和决策,而不是办公软件。
艾之:从那个关键时间节点之后,你们做了新的硬件和 3.0 的软件?
莫子皓:Plaud Note Pro 是 Note 的一次正常硬件迭代。但要将我们对未来的新定义完全体现在一个新硬件上,还需要四五个月的时间。围绕新的硬件我们也在做很多准备,包括技术、设计、品牌,都在积累,半年之后大家会看到明显的变化。
艾之:你怎么定义 AI Native 的硬件?
莫子皓:一个硬件,如果没有大模型就用不了,那它就是 AI Native 的。Plaud 如果没有大模型,基本就只能录音和播放了。现在连 ASR(语音识别)都开始融入大模型技术了。
艾之:相比于 Rabbit、Humane 这些同期的 AI Native 硬件,超过百万销量的 Plaud 做对了什么?
莫子皓:首先是团队的选择。我们的核心软硬件团队来自前搜狗录音笔团队,他们非常懂录音笔的用户需求。
其次是硬件的降维打击。我们的合伙人来自龙旗(手机 ODM 厂商),现在还有机器人公司的合伙人加入。结果就是,产品的质感真的很不一样,你们也用了很多竞对的产品,能感受到那个质感。到现在为止,还没人能做出来我们表面那种铝制波浪的感觉。
对 ID 的定义、取舍和设计,这是我进公司以后感受非常强烈的部分。软件和硬件非常不一样。软件是只要用户有需求,你就可以做一个单一功能更好的 SaaS 来满足用户。但硬件不一样,你的手机背面就一个位置,只能放下一个产品。所以软件是拼长板,硬件是拼谁的短板更长。在整个用户体验的过程中,无论是硬件、软硬结合还是大模型的东西,都得是 80 分以上,这个难度其实比想象要高很多。
艾之:为什么 Plaud 不把软件单独拿出来卖?
莫子皓:现阶段不做。一旦开放纯软件,我们就需要分出精力去维护一个独立的产品形态,处理纯软件用户的 bug 和需求。这会分散我们「通过软硬结合去突破人类智能边界」的核心精力。我们都知道这在商业上可能 make sense,但我们选择不做,因为这不在我们当前的核心路径上。
艾之:那会和飞书这样的产品合作,融入现有生态吗?
莫子皓:会满足一些基础的 API 对接需求,但这不会是我们的发力点。因为它跟我们追求的「智能」关系不大。
艾之:未来硬件形态会如何演进?会做戒指、笔之类的产品吗?
莫子皓:我们会从一个更高维度的角度思考:一个理想的 Work Companion,需要一个什么样的硬件形态? 我们不会简单地在已验证的形态上增加录音功能。我们收到了大量定制需求,但我们都刻意选择不做。
艾之:AI 产研团队现在最需要什么样的人?
莫子皓:工程能力强的人。在大模型时代,如何设计一个面向大模型的工程架构至关重要。这需要从底层思考,如何与大模型接口,如何推动模型改进,如何以更低的成本保持稳定输出。我们需要这种具备顶尖工程设计能力的人。
艾之:除了技术能力,还看重什么软性素质?
莫子皓:聪明、正直、有野心。我从十年前就开始按这三个标准招人。当然,面试很难完全看透一个人,所以我们的试用期是真正的试用期。因为我还在一线,写产品文档、画原型,所以我能很快判断一个人行不行。90 后比前辈唯一的优势,可能就是手上的活还没生疏。
艾之:你和许高都是 90 后。今天咱们聊的过程中,你强调了很多次「我们这个时代的人」。
莫子皓:我觉得这个时代就是留给 90 后的最好时代。我们这代人,干科技互联网的,心有不甘,因为「出道即下坡」,没做出什么大成的公司(特别指出:刘靖康除外)。但我们经历过高速增长,知道什么是 PMF;工作了十年,有足够的经验和资源;还在一线,手上的活还没生疏;我们愿意放弃高薪出来创业,有足够的决心。如果我们这代人还做不成,那就不 make sense 了。
文章来自于微信公众号 “Founder Park”,作者 “Founder Park”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales