刚完成亿元级融资,他要如何挑战 AI 硬件的“不可能三角”|对谈马啸:未来智能创始人/CEO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚完成亿元级融资,他要如何挑战 AI 硬件的“不可能三角”|对谈马啸:未来智能创始人/CEO
6504点击    2025-11-03 09:32
“只有做让自己快乐的事,才能释放全部的能量。”


刚完成亿元级融资,他要如何挑战 AI 硬件的“不可能三角”|对谈马啸:未来智能创始人/CEO


在今年火热的 AI 硬件赛道里,AI 耳机几乎已经是一张“明牌”。


它方便携带,能通过录下用户听到的声音作为 AI 的“耳朵”来补充物理世界的信息,弥补 AI 所需要的上下文。


但一副耳机,要在性能、续航、重量之间取得平衡,几乎是不可能的“三角”。


在这个充满竞争的领域,有人正在试图突破 ——— 他就是未来智能的创始人兼 CEO 马啸。


最近,未来智能刚刚完成新一轮融资,由蚂蚁集团领投,启明创投超额跟投,融资规模亿元级。这已经是他们今年的第三次融资。


成立不到四年,未来智能早已经实现盈利,还凭借讯飞 AI 耳机,长期占据各大电商平台的 AI 耳机销量榜首。今年,他们还推出了面向海外市场的新品牌 「viaim」 。


今天,我们想和这位“穿越周期”的创始人聊聊他的创业旅程。尤其是打造出现在这样一个取得了市场的认可,从销量上拿到了很好结果的 AI 硬件,马啸和未来智能团队是做对了哪些关键的选择?


除此之外,马啸也和我们分享了他在职场这些年的一些心路历程。


当坚持把耳机做下去的决定不被理解,当所有人都告诉他此路不通,他如何顶着巨大的压力,在内心深处反复诘问自己:“万一是别人错了呢?”


正是这份反思,让他学会在低谷中理解自己,并最终在“贵人”的点拨下,做出“follow my heart”的决定,开启了创业之路。


希望这些分享能让大家有所收获。


Part I 快问快答:认识马啸与未来智能


👦🏻 Koji


我们会先用几个快问快答开始。首先你的年龄?


👦🏻 马啸


43 岁。


👦🏻 Koji


毕业院校?


👦🏻 马啸


厦门大学研究生毕业。


👦🏻Koji


你的 MBTI 和星座?


👦🏻 马啸


INFJ、天蝎座


👦🏻 Koji


用一句话来安利一下你们现在的公司和产品。


👦🏻 马啸


「未来智能」是一家面向办公场景的软硬件一体化的 AI 公司。


我们做了一个目前有百万级用户的硬件产品,叫讯飞 AI 耳机。未来会去做全球最好的软硬件一体化的办公助理公司。


👦🏻 Koji


可以介绍一下融资的情况吗?


👦🏻 马啸


公司经历了三轮融资,目前有蚂蚁领投的这轮融资刚刚结束,现在公司的估值是达到了接近 10 亿人民币。


👦🏻 Koji


你们的收入和利润目前方便分享吗?


👦🏻 马啸


大几亿级别的收入,然后刚刚实现盈利。


👦🏻 Koji


目前的团队规模?


👦🏻 马啸


我们现在大概有 150 多号人。在合肥、北京、上海、杭州、深圳都有办公室,我们一直以来都比较习惯远程办公。


👦🏻 Koji


可不可以一句话介绍一下,这一次创业之前在做什么?


👦🏻 马啸


在之前是在一家还比较知名的上市公司,科大讯飞做一个业务部的负责人,做过很多事。最后一份工作就是做耳机,然后做的不算太成功,所以出来创业了。


Part II 从耳机出发,AI 入口的新逻辑


👦🏻 Koji


未来智能在 AI 硬件圈已经挺有名了,但因为你们的产品不是以公司名字命名,可能很多听众还不太了解。能不能先快速介绍一下?


👦🏻 马啸


我们公司成立于 2022 年,虽然 「未来智能」这个名字大家可能不太熟,但在电商平台或数码店的「讯飞 AI 耳机」,就是我们的主力产品。


未来我们还会推出更多围绕办公场景、软硬件一体化的智能设备。


👦🏻 Koji


你们究竟想成为一家什么样的公司呢?


👦🏻 马啸


我们一直在想这个问题。简单说,我们相信所有硬件都能被 AI 再改造一遍。


但也不能什么都做,要重点放在能立刻给用户带来真实价值的地方。


我们现在选定的方向,是AI 软硬件一体化的办公助理。


👦🏻 Koji


我们来聊聊耳机这款产品。现在很多做 AI 硬件的创业者都在赌「AI 的入口」是什么——连 OpenAI 都收购了苹果设计师 Jony Ive 的公司。


你们选择做 AI 耳机,是因为你认为耳机会是最好的入口吗?


👦🏻 马啸


这个其实也有一定的偶然性。我们不是一开始就决定做「AI 的入口」,而是在做耳机的过程中,慢慢发现它有潜力。


我一直觉得未来的 AI 入口不会只有一个。大家常会用过去的思维看未来。比如手机成功了,就会想,在 AI 浪潮里会不会有取代手机的产品。


但我认为未必如此。未来可能是多元组合的形态:不是一个硬件打败另一个,而是一组硬件、甚至软硬件入口共同存在,它们共享一个“大脑”,组成智能矩阵。


随着时间推移,用户在手机上的使用会被逐渐分散,新的入口也会慢慢形成。


我们很早就开始做耳机,因为它是一个用自然语言与 AI 交互的理想载体。


未来,它可能成为分散用户使用时长、拓展交互场景的重要方式。


随着交互方式的演进、AI 越来越智能,很多任务其实不需要再拿起手机也能完成。


新的设备不会突然取代手机,而是一个渐进的过程,而且不同设备都会成为人和 AI 互动的媒介,而在背后,会有一个云端服务持续整合这些数据,实现更自然的交互。


耳机的优势是可以随时沟通、解放双手,虽然没有屏幕,但它依然会成为未来最核心的 AI 交互方式之一。


Part III 要先做好硬件,再谈 AI


👩🏻 Ronghui


我们之前采访 AI 眼镜创业者时,他们说:一副好的 AI 眼镜,首先得是“大家愿意戴的眼镜”。那你们在做 AI 耳机时,是怎么思考这个问题的?毕竟苹果已经把耳机的标准定义得很清楚了。


👦🏻 马啸


我非常同意这个观点。


一个好的硬件,首先要把它本身的功能做好,不能只强调 AI 功能。


我们在创业初期其实踩过这个坑。


后来我们总结出耳机的核心竞争力是「5 + X」。「5」是耳机最基本的五个属性:音质、外观、续航、降噪、佩戴舒适度。


如果这五点没做好,只靠 AI 来吸引用户,那消费者是不会买账的。哪怕他们因为好奇买了,也不会长期使用,更不会推荐给别人。


我认为 AI 耳机要在“好耳机”的基础上,再进一步。比如现在的场景,它不仅能识别到用户自己的声音,还能分辨出 Koji 和 Ronghui 的声音。


👦🏻 Koji


我注意到你们产品里有个设置,可以选择只收自己的声音,或者收整个空间的声音。


👦🏻 马啸


对,这就是让用户决定 AI 的“耳朵”要听谁。只有这样,它才能真正成为你的助理,做到“听你所听”。


👦🏻 Koji


但这样会让硬件更复杂,对续航的要求也更高。那类似的功能还有哪些?


👦🏻 马啸


还会有很多,这只是其中一个。


其实大家会看到说,那耳机能不能让这个佩戴能够超越这个时长。现在的耳机形态其实早被苹果标准化了,像入耳式、半入耳式,还有耳挂式、耳夹式等。我们希望在此基础上做硬件的二次突破,比如做到超长续航、无感佩戴、随时可用,让耳机真正成为全天候的智能设备。


不过这里有很多挑战,因为耳机存在一个 “不可能三角”:续航、重量、性能,三者很难兼得,所以必须学会取舍。


👦🏻 Koji


那你们的选择是什么?要做“六边形战士”,还是在这三项里主攻一个?


👦🏻 马啸


要做到六边形战士几乎不可能,这还涉及到供应链和硬件技术的突破。


在现有条件下,我们会尽可能用最好的元器件和芯片把性能做到极致。


我们更看重的是硬件如何充分支撑 AI 的功能。


比如在续航上,我们的耳机主要面向商务用户,需要更长时间的通话。普通耳机单次续航大概 5–6 小时,听音乐也就 7–8 小时。我们希望做到不充电通话 9–10 小时,加上充电盒,总续航能达到 30–40 小时


回到应用场景,我们最重要的目标是把商务用户的核心体验做到极致。所以我们会在一些方面做取舍,比如设计没那么“优美”,但整体会更皮实、可靠。


👩🏻 Ronghui


这里面有哪些取舍是特别艰难的吗?


👦🏻 马啸


挺多的,其中最难的取舍是音质。


用户买耳机,很大程度上是希望既能开会,又能听音乐。


但耳机的喇叭是主要的耗能点。比如选择单动圈、双动圈,或者动圈+动铁的方案,都会明显影响能耗。而能耗一高,续航时间就会缩短。所以我们必须在“音质”和“续航”之间反复权衡。


👦🏻 Koji


AI 耳机有点像这一波创业的一张明牌,大家都看得到这个机会。你觉得这更像是比拼谁有钱、谁先发,还是说其中其实有很多可能“走错一步就输掉”的风险?


👦🏻 马啸


我觉得在第一层面上确实是一张明牌,大家都看得到这个机会。但关键在于做什么样的耳机,这里其实有很多非共识。


比如手机厂商要做的是量大面广的耳机。他们已经有庞大的用户群,所以必须在那五个核心属性上卷到极致。


而我们创业公司从第一天起就知道,没法和那样的巨头正面竞争。我们能做的,是在垂直场景里创新和突破,提供差异化的价值。


我们的出发点更偏向会议与办公场景,使用场景相对更严肃,同时对数据的可靠性要求更高。


所以在“AI 耳机是机会”这个大共识之下,不同选择会带来完全不同的方向。


👦🏻 Koji


我看你们的产品里也有翻译功能?


👦🏻 马啸


对,不过我认为翻译是未来所有手机厂商和通用硬件都会去解决的问题。但录音、记录、以及基于办公流程闭环的 AI 助理服务,并不是他们迫切想做的。


举个例子,像苹果这样的公司,首先会考虑全球十几亿用户共同的需求,比如跨语言沟通,所以更可能在翻译这项功能上投入更多资源和技术。


但如果去做面向办公的垂直助理,投入再大,也只覆盖其中几千万人。对他们来说,这样的投入产出比太低,有点“杀鸡用牛刀”的感觉。


这就是平台型产品和垂直型产品的区别。平台要满足所有人的共性需求;而垂直产品要解决特定用户的痛点。就像苹果做的是 iOS、谷歌做的是 Android,它们提供通用平台,真正去满足细分需求的,是各种各样的 App。


👩🏻 Ronghui


可以理解为,你们相比大厂,更核心的竞争力是对办公场景的理解?


👦🏻 马啸


是的。


👩🏻 Ronghui


那在办公场景里,你觉得你们的耳机最能解决哪些核心需求?


👦🏻 马啸


耳机和其他产品最大的不同,是它可以随时随地录音。


比如我在用飞书开会,可以用飞书自带的录音;但如果换成腾讯会议,就要切换到另一套系统。


而像微信这种场景,很多时候甚至没有统一的录音方式。


👦🏻 Koji


我现在每天大概要切换三个平台。


👦🏻 马啸


对,这就是问题所在。


当你频繁切换平台时,会议记录、语音笔记都被分散存放,难以统一管理。


而我们的耳机可以跨平台统一记录与整理,这是其他产品没法做到的,我们希望把这个优势发挥到极致。


其次,耳机是佩戴式设备,不需要像手机那样拿在手里。


我们也会在随时启动的方式上做很多优化,让用户能更自然地与它交互。这是另一个非常关键的办公场景。


👦🏻 Koji


我自己用你们耳机有两个特别好的体验。


第一,只要我在任何 APP 里开始通话(无论是飞书上开会,微信接电话,还是 Zoom 上 call),它就会提醒我开始录音。


第二,录音的同时就能实时转录出文字。每次我通完电话,文本记录都已经生成好了。


我很好奇,为什么你们能做到边录音边实时传输和转写?毕竟耳机的体积也不大,像 Plaud 那种卡片录音设备都没做到这一点。


👦🏻 马啸


这个功能来自我们在耳机芯片上做了大量自研开发的结果,是我们团队的核心技术。


大家以为蓝牙传输很快,但那是“经典蓝牙”模式。但当它被通话占用时,几乎不能再传输其他数据。


这时候需要另一套数字蓝牙协议(BLE GATT)。我们对这种协议它进行了底层改造,让它可以稳定地持续传输语音流。


这件事很难,因为相当于我们要在极窄的通道中要同时保证音质和稳定的传输。而蓝牙用的是 2.4GHz 频段,很容易受到 Wi-Fi、信号灯等设备的干扰。一旦被干扰,数据流就可能中断、变慢或丢包。


还有另一种情况是,如果强行压缩来保证传输稳定,就会损失音频细节、降低识别率。我们在这些问题上做了大量优化,最终实现了在低带宽条件下仍能保持高质量、实时、稳定的数据流传输。


👦🏻 Koji


我确实能感受到和竞品的差异。你们有专利能够成为未来长期的护城河吗?


👦🏻 马啸


说实话,我对这个技术护城河不是特别的信仰。现在这个时代,几乎没有哪项技术是别人完全做不出来的。我们确实申请了专利,但从原理上讲,别人换一种编码方式或传输方案,也可能实现类似效果。


我认为技术永远不成为最终的护城河,最重要的还是用户体验。


我们花了很多精力去打磨体验,让用户真正满意——这才是我们真正的护城河。


👦🏻 Koji


我们之前也和 Manus 聊过,他们说现在大家其实都没有真正的护城河。他们的答案就是,不断创新,速度就是他们的护城。


👦🏻 马啸


非常认可。


Part IV 在红海中找到蓝海赛道和非共识


👩🏻 Ronghui


我看你之前的一个采访里提到,你们耳机供应链的核心厂商是果链供应商?


👦🏻 马啸


是的。


👩🏻 Ronghui


那你们是怎么说服他们合作的?你们的订单量和苹果也不是一个量级吧?


👦🏻 马啸


刚开始我们体量很小,一次下单量(MOQ)也就几万。而这样的厂,常规起订量都是百万级才能在他们生产线上长期排产。


在我们创业初期我们几乎找遍了二三十家上下游厂商,但基本没有人愿意接我们的单。但我们还是锲而不舍地沟通,坚持把想法讲清楚。


当时,我们提出的“AI 耳机”概念还很超前。现在大家都觉得理所当然,但在 2021 年,很多供应商还不一定能接受这个概念。


👦🏻 Koji


因为那会儿还没有 ChatGPT。


👦🏻 马啸


对,那会儿还不是现在这波 AI 热潮,还在上一波人工智能周期里。


但这家大厂的董事长对未来非常有眼光。他当时就认为,他们在主流耳机代工领域已经做得很好了,但下一步的增长也许就在当时看起来市场小,但未来有潜力的机会。


我们用真诚和坚持,加上他们董事长的远见,最终促成了合作。那时候我们的订单量只有几万,但他们依然愿意陪着我们一起打磨产品。其实不只他们,整个供应链上下游、芯片厂商、都有不少大公司愿意在早期支持我们。那时候真的就是靠一份诚意,尽量的去争取到他们的一个支持。


👩🏻 Ronghui


可以举一个锲而不舍的例子吗?


👦🏻 马啸


其实就是多次拜访。我觉得最打动他们的,是我们是对未来的一个畅想。


那时候大家有很多的非共识,但是很少有人把未来描述的比较清晰。


我认为我们做的还比较不错的一点,就是推演出了一条从“现在到未来可行的路径。这让对方觉得,不是我们突然做了个梦,然后就去要资源。


👦🏻 Koji


那当时你们是怎么自圆其说的呢?因为那时候还没有生成式 AI,转录的准确率不高,也没有自动摘要。


👦🏻 马啸


确实,我们当时也不是光靠讲故事。我们手上其实有一些真实的数据支撑。


那时我在科大讯飞做了耳机。虽然那款产品商业上不算成功,总共只卖了大约 4 万台,放在现在 KK 级(百万级)的规模里几乎不值一提。


但有个数据非常亮眼:购买这款耳机的用户必须下载配套 App,而 App 的月活用户能维持在 80% 左右。这个超高留存率让我们看到了产品的真实价值和潜力。


👦🏻 Koji


他们用 APP 干什么?


👦🏻 马啸


主要是用来做会议录音和文字转写。那时候还没有大模型,不能做摘要总结,但能把两小时的会议录成音,然后自动转成文字。


对用户来说,这已经是巨大的效率提升。听录音,哪怕倍速播放也要一个多小时,但看文字记录,20、30 分钟就能快速浏览完。


👦🏻 Koji


所以那个时候 ASR (语音识别)已经可以比较精准了?


👦🏻 马啸


对,在一定条件下已经能显著提升效率。


👦🏻 Koji


80% 用户会成为月活用户——这是一个非常牛的数字 。而且他们还高强度依赖某个具体的功能,那为什么那个产品没继续做呢?


👦🏻 马啸


确实给我们的老东家亏了不少钱。当时的市场很残酷,很多手机厂商把耳机做的很好了,连很多老牌的音频厂商都在节节败退。


在这样的红海里,你既没有做耳机的经验,也不是个知名的消费品牌,又想卖一个比较贵的 “AI 耳机”,这个概念当时的用户还不熟悉。


当时大家也有人质疑,在这么强的竞争对手面前,你凭什么杀出重围。


而且讯飞其实已经有几款成功的“蓝海产品”,像讯飞办公本、录音笔、翻译机。


这些产品的共通点是:赛道比较垂直,虽然市场小,但还没有被 AI 改造过。一旦加入 AI,效果立竿见影。再加上上讯飞的产品在体验和质感上确实做得好,所以很快就能做到头部。


在电子消费品里,一旦你变成头部,就有定价权。一旦你有定价权,就能引领整个赛道,甚至让后来者的产品反过来帮你带流量。


👦🏻 Koji


所以那是讯飞的舒适区。


👦🏻 马啸


对,但耳机不是这样的赛道。耳机一开始就是彻底的红海市场。


要面对无数强劲的竞争,如果没有足够的资金、优秀的供应链和资源,根本没法竞争过对手。


👦🏻 Koji


我很好奇,既然大家都看到那么多困难,当时你是怎么有勇气去做的?


👦🏻 马啸


一方面是对未来的相信:我就觉得 AI 一定有更大的发展的空间,像科幻电影叫 《她》 、《流浪地球》里那样,人戴着耳机和 AI 自然交流的场景。


虽然那时候还不知道 Transformer,但我相信技术终会解决这些问题。在讯飞时,有些顶尖的科学家和算法团队也认为 AI 未来有机会,就看谁能熬到那个技术成熟的时刻。


另外,我不认为“竞争激烈”就意味着没有机会。即使是红海,也能找到自己的垂直蓝海赛道。


当时给我启发很大的两家公司是韶音(Shokz)和影石(Insta360)。韶音专注于骨传导耳机这一细分领域,把运动场景做到极致。据我了解,很多人即使有苹果耳机,也会在运动时额外买一副韶音。这让我意识到,即使是红海市场,也总会出现新的场景和机会。关键在于你能不能及时发现、及时抓住。


另外一个例子是 影石(Insta360)。在 2017、18 年时,大家几乎都用 GoPro。但影石通过在体验上持续优化,现在他们的产品体验,已经可以说远超 GoPro。这说明:哪怕在一个成熟行业里,创新也未必来自头部玩家。后浪依然有机会超越前浪。


所以当时我坚定地认为——只要找到合适的赛道、不断创新,再加上之前验证过的用户需求,AI 耳机一定有机会。


其实当时有一个挺有意思的现象,我们的用户是一边骂一边用。他们会吐槽:“这耳机太丑、质感太差、音质也不行”,但同时又离不开它的功能。


这反而给了我很大动力。我在想:如果把耳机本身做好,AI 功能的价值就能被更广泛地认可。当产品体验变好、口碑提升,用户不仅会留下来,还会愿意推荐给别人,那就有机会实现真正的“从 0 到 1 的增长”。


👩🏻 Ronghui


确实,很多人即使有一副苹果耳机,但可能还会再买一副别的,像头戴式、运动型这些细分领域也都存在。那你会不会担心,比如大厂未来也在耳机里加入 AI 功能?


👦🏻 马啸


我认为像翻译这种通用型功能,苹果(已经做了 AI 功能)、华为、三星这些巨头都一定会做。


但如果要把 AI 记录、整理这类功能 做得又深又细,对他们来说就有点“杀鸡用牛刀”。这些巨头更倾向于搭建通用平台,让开发者去做垂直应用。所以短期内,我并不太担心他们会直接进入我们所在的赛道。


👩🏻 Ronghui


我们录制前,我让 ChatGPT 给我推荐几款 AI 耳机。推荐的前几个确实都是中国品牌,包括你们,也有另外两家来自深圳的公司。


👦🏻 马啸


对,其实这是我们行业内的竞争对手。我认为真正的比拼,在于对未来的判断。


别人可以学到我们今天的产品,因为这些东西都是公开的;但他能不能学到我们半年后的产品?能不能理解我们对未来的认知?


就算理解了,他是否认可?这都是未知数。“到底做成什么耳机”其实是非共识。


我会欢迎和各家 AI 耳机公司竞争。我们会在竞争中持续去伪存真、修正观点,用更好的体验服务用户,同时也用市场来检验我们对未来的判断究竟对不对。


Part V 做 AI 硬件,不能照搬互联网逻辑


👦🏻 Koji


你觉得你们主要的竞争对手是谁?你怎么看整个竞争格局?


👦🏻 马啸


我觉得大家更多是一种竞合关系。这代 Transformer 模型的能力已经非常强了。如果把 AI 比作人的大脑,那么这次的“大脑”有了显著升级——它具备了推理、逻辑、甚至一定的问题解决能力。


所以大脑变强了,接下来要让它更强,就需要依靠基础大模型去持续进化。


基础模型越来越强,上层的应用就会更强,应用更强,基于它的 Agent 也会随之更强。可以把这看作一条链:最底层是基础大模型(大脑),中间是调教型模型——针对特定场景微调出来的版本,再往外是Agent 层,用来执行任务、闭环流程。


下一步,其实让基础大模型跟人交互。现在主流的载体手机、电脑已经被巨头垄断。那在不方便用这类设备的场景下,谁来帮模型“听”和“看”?


就像我们现在访谈时用的领夹麦克风,它在把现实世界的信息转成数字信号。本质上,我们做的就是大模型的耳朵和眼睛:耳机是“戴在耳边的耳朵”,卡片录音设备是“贴在手机背后的耳朵”,音箱是“放在桌面的耳朵和眼睛”。


真正的竞争在于,谁能更长久地伴随用户。伴随得越久,收集的数据越精准,AI 的学习与服务能力就越强,形成正向循环。


这两者形成循环,就是我们所谓的 “双引擎战略”:一边优化硬件体验,一边提升 AI 服务。这就是我理解的新一代 AI 硬件创业的核心。想走得长久,就必须深入贴合用户的日常


这就是为什么前一阵硅谷出了好多非常有想象力的产品(像别在胸口的 AI Pin、还有挂在脖子上的),但都失败了。原因很简单,这种全新的硬件形态,需要用户先理解,再接纳。而能被接纳的前提,是它能带来足够高的价值。当理解成本高,价值感又不强,产品自然卖不动。


但耳机这个形态已经被验证过了,它本身就是个好耳机,还能无缝融入工作、开会的的场景,这是 AI 耳机能成功的核心逻辑。


👩🏻 Ronghui


那你觉得你们的品牌差异化是什么?


因为我刚才问 ChatGPT,它列出的几款产品,说实话看起来都挺像的


👦🏻 马啸


对,那可能我们目前品牌的区分度还不够,我们也在持续打磨这部分。


但我始终认为,产品的气质一定和创始团队、以及他们想解决的问题相关


我们可能不会去走时尚路线,因为产品的定位是商务人士,需要皮实耐用。我希望我们的产品跟早期 IBM 的 ThinkPad 一样,给用户一种踏实、可靠的感觉。我们希望耳机拿起来就能用,服务也足够精准,做一个真正靠谱的 AI 助理。


大家都知道 AI 会有幻觉,所以在我们的产品里,我们用了一套自研模型,尽可能控制幻觉、保证结果只来自用户的真实记录。


我们也在主动收敛范围。我早年做过智能助理,最大的问题就是它看似什么都能做,但每样都做不好,所以导致用户的预期和实际体验之间是断崖式落差。


所以这次我们把 AI 助理聚焦在办公场景,从“记录”这一最基础的需求做起,先把事情做到足够扎实、足够靠谱,再慢慢延伸到更多工作场景。


这也是我们希望产品能传递出的品牌气质。


👦🏻 Koji


现在还有一种产品思路,是24 小时持续记录:要么全天录音,要么每隔几分钟自动拍一段视频。


我们之前采访过在硅谷的“鸭哥”。他把 Apple Watch 改造成 24 小时录音设备,又把 GoPro 挂在胸前,每隔几分钟拍一张。相当于给自己装上了 AI 的“耳朵”和“眼睛”。我很好奇,你怎么看这种“记录一切”的创业方向?


👦🏻 马啸


这个方向确实比较激进。我也不否认也许有一天它会成为主流,但现在还非常早期,属于非主流的行为。


因为用户对隐私极为敏感。比如有个小故事说,在饭局上某品牌的眼镜的主人吹嘘了这个产品的功能,结果饭局凉了,因为大家不敢说话了。其实人对隐私的关注很高。


当然,AI 陪你听、陪你看是一个趋势,但从现在到未来,还需要跨过很多关。包括技术、续航问题,还有清晰度和内容理解,更重要的是道德伦理和人类社会的接受度。


我们现在做的比较务实,就是先把一天中8小时的工作上要记录的做好。算是比“记录一切”那种方向往前稳稳迈出一小步的创业逻辑。


👦🏻 Koji


你之前提到,电影《她》里耳机的设定也给你带来过启发,但你们最终没有做陪伴式耳机?


👦🏻 马啸


是的。我们的耳机确实做了 AI 交互,但始终围绕办公场景。未来我们也会推出更多可以交互的硬件,但我不想再去做那种“什么都知道的 AI 助理”了。


我以前在科大讯飞,做了国内第一个类似 Siri 的中文语音助手。但后来我发现,这类产品有很大的瓶颈。首先是当年的 AI 理解人类语言的水平太低,不过这部分已经解决得七七八八了。


但接下来的瓶颈依然存在,尤其是服务的贯通能力。要想语音订机票,甚至让 AI 自动订机票,你得打通很多商业环节。现实是,各个平台不会轻易开放接口。哪怕现在有 MCP、有跳过、用屏幕遥控的方式,也随时可能被封。所以我认为,在当下的商业环境里,大而全的 AI 助理是行不通的。


但如果你把范围缩得足够小,就能做成。比如我们当年做车载 AI 助理,车内的场景其实就四个:导航、调空调、放音乐、打电话。这些接口车机都打通了,这时候再叠加智能交互,价值就非常明显。


问题在于,AI 交互的复杂性往往隐藏在水下。表面看,只是一个语音界面,但背后要开发、要整合的部分非常庞杂。而且用户一旦体验不好,感知是断崖式地下滑。


而现阶段的交互方式,还远远无法满足用户的期待。即使技术上能解决,要真正把各种服务整合成一个闭环体验,也还有很多不确定性。所以,我们的策略是,聚焦垂直场景,比较务实。


👦🏻 Koji


你刚才提到接下来会推出新的硬件产品,有可以分享的嘛?


👦🏻 马啸


现在还在保密研发阶段,不过我们想做的是软硬件一体化的最佳办公助理,这些新产品一定会和办公场景有关。


现在很多硬件还无法真正满足用户需求,我们希望通过 AI 去赋能这些设备,让它们既能解决办公问题,又能让更多的用户随时携带这个设备。


👦🏻 Koji


听起来就是耳机呀。


👦🏻 马啸


耳机当然是其中一个形态,但我们还是要保留一点神秘感(笑)。大家到今年年底、明年年初就能看到新产品了。


👩🏻 Ronghui


今年 AI 硬件创投非常的火,你自己的体感是什么样?


👦🏻 马啸


其实我们公司从2021 下半年开始做筹备,当时还没有大模型。我当时是个融资素人,一边摸索一边和投资人聊。可能我们的实践经验也不够,所以当时很多人都觉得不值得投。


👦🏻 Koji


那个时候,听到 AI 就等于赔钱活。


👦🏻 马啸


但 2023年的时候,情况完全不一样了,就是 OpenAI 带起来这波浪潮。但当时的方向不是应用,而是大模型。


当时也有人劝我搞大模型,毕竟我们从讯飞出来的,有技术背景。


但我们很清楚,那东西我们搞不了。一来那不是我们的基因,二来大模型太烧钱。


而且其实大模型的底层原理 Transformer 早在很多年前就被提出了,只是因为算力的极度膨胀,让 “predict next token” 这个逻辑终于变得可行。


以前算力不够,这件事根本跑不出来。要做,就得有巨大的算力投入。


我们自己有很强的自知之明,这不是我们的领域,所以我们就继续守着应用这个赛道。


当时也有一些有远见的投资人在分析:大模型比的无非是三样——算力、算法、数据。数据大家差不多,算力拼的是钱,算法上虽然各有千秋,但总体上还没有出现真正的 next-level 创新。所以我们判断,那一层的竞争最终会变得同质化。


👩🏻 Ronghui


那你这轮融资的目标是什么?怎么在抓住时间窗口的同时,又确保融资规模“合理”?这个“合理”,你自己是怎么判断的?


👦🏻 马啸


我们基本是按照公司的营收,用 PS Ratio(市销率)的两三倍来估算。所以我们现在的估值其实不算高,同行里有不少公司的估值是我们的五到十倍。


我觉得融资是投资人对你未来的一种信任和押注。公司有责任去创造价值、给投资人回报。所以我们宁可稳一点、把握更足的时候再去融。因为我始终觉得,投资人给你的钱是一种信任,你就必须在一定周期内兑现承诺。


在行业还没出现“天翻地覆”的变化前,你不该要超出自己能力范围的钱。我们确实赶上了一个风口。但我觉得一个稳健、本分的公司,其实还是需要回归到理性的。


👦🏻 Koji


你肯定也看到一些竞争对手,可能产品都还没有,就有 1 亿美金的估值。你会担心自己没有去利用好这个泡沫,从而失去一些竞争优势吗?


👦🏻 马啸


我不会,至少在 AI 软硬件一体化领域,这个逻辑未必走得通。


软件可以快速扩张,然后再填一些非常优秀的人,然后快速实现用户的瞬间暴涨。这个逻辑其实在互联网是可以验证的。


有些投资人觉得 AI 和互联网都是急速膨胀的一个市场,那么就按照互联网的逻辑去估硬件公司的值。


但是这两件事的底层逻辑发生了变化的时候,你不能用上一个时代的逻辑去框下一个时代的业态。


很多互联网公司做硬件不太成功,就是因为用互联网思维做硬件。


互联网产品的核心逻辑是“长板原理”:只要有一个功能够吸引用户,其他地方被骂也没关系,反正可以第二版、第三版快速迭代。


但硬件不是这样。一旦发布后,如果某个功能点被用户吐槽、或者存在致命缺陷——研发、开模、生产、库存,全都像山一样压过来。哪怕你前三代都成功,只要有一代失败,整个链条都会被拖垮。


做硬件,必须从用户价值和市场需求出发。因此,用互联网的估值体系去套 AI 硬件公司,本身就不成立。


我也不担心那些融资很多的竞争对手。即便他们钱多,也无法像软件那样快速出新。硬件还得靠生产、打开销售渠道、做品牌,一步步做起来。除了做品牌上可能会快一些,但烧钱并不能替代这些基本工作。


👦🏻 Koji


所以你觉得,即便别人融了更多的钱,也不一定能加速竞争力?


👦🏻 马啸


会加速一点点,但这不是决定性因素。


在互联网行业,如果商业模式已经跑通,你只需要把团队扩十倍、用户扩大一百倍,用户增长带来的回报是可以直接计算出来的。当规模上去,一旦我形成垄断,把对手挤出市场,你就成了行业的交通枢纽。电商就是这样,必须挤掉其他对手,才能成为交易双方离不开的平台。


现在的我们就像内容平台:用户有提供内容的和获取内容的,我必须变成这个行业最大的,所有人都在我这里交易内容,那我就赢了。


👦🏻 Koji


互联网公司有数据飞轮和网络飞轮的效应。


👦🏻 马啸


对,但在硬件领域,飞轮不是这么运转的。


👦🏻 Koji


听起来你其实也有机会用更高的估值,去拿更多的钱。


👦🏻 马啸


确实可以。


👦🏻 Koji


那对你来说,追求更高估值、拿到更多“子弹”,是不是也能让你跑得更快?或者至少,先把市场上的钱拿下,别让别人拿走,也是某种竞争策略?


👦🏻 马啸


我倒没想过要“把市场上的钱都拿下”。市场的钱太多了,我们的能力也有限(笑)。


我更看重的是先把产品做好,一点一点地给用户创造价值,沿着正确的认知往前走,成功自然会到来。这一点上,我很认同段永平说的“本分”。


👩🏻 Ronghui


你刚才讲到 AI 硬件和互联网产品逻辑完全不同。这种领悟,你大概是哪个阶段得到的?你提到过“如果一版产品失败,可能整个公司都完了”。你有经历过这样的时刻吗?


👦🏻 马啸


在我之前的公司,产品一旦卖不动就会滞销,陷入向下螺旋——没人愿意卖,你越卖不动;越卖不动,就越没钱推广,最后整个链条被拖垮。所以,做硬件的风险极高。


我刚才讲到,做互联网是长板原理,但做硬件是短板原理。


哪一环短,你的被硬件一定会被它给制约住。我自己经历过这种情况,也见过大公司踩坑。比如当年一些企业,收购了当时还如日中天的品牌,结果产品越做越差,销量崩塌,最后只能以十分之一的价格清库存,那真是一次血的教训。


还有就是经销商的信心。因为硬件是需要渠道的,而经销商是真金白银压货帮你卖产品的人。


一个典型的错误就是:产品卖不动,老板一句话“降价”,经销商就立刻退货,因为信任崩了。他们不知道你会不会继续降价,囤的货怎么办。


一旦伤了经销商的心,公司口碑就毁了,再出新产品没人敢接。互联网产品不一样,失败了还能重来,但硬件一旦失信就很难翻身。这是两种完全不同的逻辑。


Part VI 从耳机项目被叫停,到创业的起点


👦🏻 Koji


你在做耳机以前一直做互联网软件产品,听起来现在反而有点羡慕那种商业模式。


那为什么明知道硬件难做,还“偏向虎山行”?


👦🏻 马啸


其实我们创业初期也犹豫过要做软件还是硬件。但后来发现,软件的优势不容易积累。做硬件虽然慢、笨、而且链条长,却能一点点沉淀出壁垒。它更像是“春耕秋收”的过程,会有种踏实的感觉。


👩🏻 Ronghui


你在有过去的职场,有没有经历过那种深入了解自己、找方向的过程?


👦🏻 马啸


从我成长的经历,我大概对我自己形成了一个相对稳定的认知,我一直觉得自己不是最优秀的那个人,但到任何圈层里,都能混到中上。我比较求稳,然后会对自己有偏长远的认识。


我第一份工作在中国移动,刚进去时觉得周围的人太优秀了,但后来也慢慢融入,成为他们中的一员。


后来去了科大讯飞,身边都是博士、科学家型的人,一开始跟不上,但慢慢也能跟上节奏。


我越来越相信,人该做自己真正擅长的事,扮演属于自己的角色。


我不是那种“顿悟型”的人,没有哪天突然灵光一闪要改变世界。我更像是长跑型选手,在不断打磨和思考中,把事越做越清楚,越走越坚定,然后形成一个正反馈。


👦🏻 Koji


我看到你在之前有分享过,创业前你给一位前辈打了 30 分钟电话,挂断后就决定创业。能聊聊那是谁、那通电话聊了什么吗?


👦🏻 马啸


那个人是我现在的董事长——胡郁,科大讯飞的联合创始人。


当时我面临很大压力。讯飞希望我们继续做蓝海产品,符合公司的定位;但我想做耳机,这条路是难而正确,但时间很长、又不被看好。后来公司决定,这个业务线不能再按原来的方式做下去。


那时公司给了我两条路:要么转岗,要么离开。大家其实对我很好,没有直接开除我。但我心里很挣扎,因为我手上握着一堆数据,心想:“再做一代,这个耳机也许就能成,为什么不试一试?“


但高层已经定了方向,最终我只能选择离开。


那时候我特别迷茫,坚持了半年,每天都在想办法说服别人采纳我的想法,却几乎处处碰壁。那段时间真的像在战争迷雾里摸索。后来我给现在的董事长胡郁打了电话,他也没直接给出答案,只告诉我要听从自己的内心,只有那样,你的能量才能真正被释放出来。


他跟我说,如果去做一件自己不喜欢的事,人是被压抑的,就算再努力,也无法真正投入,更谈不上快乐。


他一讲“快乐”,我就大概就通了。


我知道如果去做别的,我也能做得不错,但我不会快乐。与其如此,不如选择一条虽然很不确定性,但有可能让我真正快乐的事情。


那次谈话给我的最大启发,就是要 follow your heart。


虽然这句话听起来很俗,但他帮我真正理解了这句话的分量,也让我从那一刻开始坚定了自己的方向。


👦🏻 Koji


我理解你们在融资之后,还有很多新的计划——无论是产品、渠道,还是出海,对吧?那你们现在也在招很多新同事。你希望未来智能成为一家什么样的公司?希望吸引什么样的人加入?


👦🏻 马啸


我一直希望未来智能是一家本分的公司,我们最核心的理念就是持续为用户创造真实价值。


其次,我希望未来智能能在 AI 的垂直领域里,把技术、产品体验和交互设计都做到足够出色、自然、好用。


AI 在某种意义上,其实是与人类能力竞争的技术,很多人因此会有抗拒感。我们希望做的是人机协同的 AI,让技术去解放人的能力,帮助每个人发挥潜能,而不是取代谁、抢谁的饭碗。


我们的理念是:AI 不是你的对手,而是你的伙伴。它能帮你更轻松地工作,更好的去享受生活。


文章来自于微信公众号 “十字路口Crossing”,作者 “十字路口Crossing”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales