黄仁勋投了家复刻马斯克声音的AI公司

10496点击 2025-11-03 14:51

如果我不说，你能分清哪个是马斯克本人的声音吗？

黄仁勋投了家复刻马斯克声音的AI公司

大NO特NO！！！其实这俩都不是。。。

这段堪比“本尊”的语音，就出自语音AI公司Cartesia刚刚发布的语音模型Sonic-3。

伴随新模型对外公布的还有新融资：

Cartesia披露完成1亿美元的B轮融资，投资方里英伟达赫然在列。

此外，这家公司之所以如此受关注，还跟其创始人密切相关。

其创始人、CEO是来自斯坦福AI Lab的印度天才少年Karan Goel ，之前就在状态空间模型（SSM）领域锋芒毕露了。

是时候认识认识Cartesia了～

融资+上新，两件大事一块来

Cartesia这家公司，开局就是典型硅谷精英剧本。

Cartesia的初始核心成员，清一色来自斯坦福AI实验室，妥妥的学术派大拿班底。

其中，Cartesia首席科学家和联合创始人Albert Gu还是一名华裔，也是是Mamba架构的共同发明人之一。

黄仁勋投了家复刻马斯克声音的AI公司

△从左往右第三位为Albert Gu

其实，Cartesia从一开始没走主流圈子还在卷的Transformer老路，一上来就盯准了实时语音AI。

正因为一开始目标就定得足够明确，以至于公司成立后的发展节奏可以用两个字概括——

那就是：飞快…

Cartesia成立的第二年，就拿下了种子轮融资，同年推出首款核心产品：语音模型Sonic，能生成跟真人一样自然、带情感的高质量语音。

今年又又又开始加速商业化和产品迭代，3月完成6400万美元的A轮融资，并发布了支持语音克隆与风格迁移的Sonic-2.0。

这不刚刚，他们又从Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA那边筹钱，宣布完成了1亿美元的B轮融资。

从发布节奏到融资节奏，Cartesia基本把“边卷技术边收钱”这件事，执行到了极致了…

黄仁勋投了家复刻马斯克声音的AI公司

咱再回过头来看一眼这次跟融资一同发布的主角——Sonic-3。

这代语音模型相较于前作，最大的升级在于两个字：更像人。

它不仅能更准确地捕捉语言中的情绪波动，还能表达出笑声、语气起伏，以及那些微妙又真实的情感变化，而且响应非常快，不信你听：

黄仁勋投了家复刻马斯克声音的AI公司

与大多数依赖Transformer架构的语音AI不同，Sonic-3是基于状态空间模型（SSM）构建的。

传统Transformer的处理方式，是“反复回放”：每次生成回应前都要重新遍历所有对话历史，这种方式在多轮对话里既慢又容易“卡顿”。

而SSM更像人类大脑的思维模式，它能持续感知上下文和对话氛围，不需要每句话都从头再来一遍，AI回应的会更省力也更自然一些。

这也让Sonic-3在回应速度上也有了提升：Sonic-3模型延迟仅90毫秒，端到端响应时间只有190毫秒，几乎是当前速度最快的语音生成系统之一。

行了，照这趋势发展下去，开语音会的都不一定是真人了…

从斯坦福杀出的印度天才少年

Cartesia CEOKaran Goel目前人生履历完全可以拍成《三傻大闹宝莱坞·硅谷篇》。

黄仁勋投了家复刻马斯克声音的AI公司

他出身新德里一个做科研器材的老牌家族。

本科就读于印度理工学院德里分校，是印度最顶尖的工程院校之一，许多硅谷和印度创业者出自该校。

后来，又去卡内基梅隆大学计算机科学学院攻读了硕士学位，还获得了全球顶尖研究生才能拿到的Siebel Scholar奖学金。

黄仁勋投了家复刻马斯克声音的AI公司

随后直通斯坦福AI实验室，师从AI教父级人物Chris Ré。

没错，就是那位用Snorkel开创“弱监督数据标注”方法、后来把其初创公司Lattice卖给苹果的技术大牛。

此外，Karan Goel在校期间就对SSM颇有研究，在斯坦福读博期间就和Albert Gu等同门一起发表和状态空间模型相关的论文。

也就是在那个时候，一群斯坦福PhD生决定把学术研究直接“变现”成产品。

包括Karan Goel在内的团队成员，将他们在斯坦福AI Lab研究的状态空间模型（SSM）架构打包进了后来的Cartesia公司。

你品，你细品，从斯坦福杀出、从论文里走出，再到1亿美元砸进来——Cartesia走过来的每一步真可谓是“步步为营”啊～

黄仁勋投了家复刻马斯克声音的AI公司

光国外热闹，咱这边的语音AI产品也没闲着。

就在今天，MiniMax也上了新活儿——语音模型MiniMax Speech 2.6发布了。

黄仁勋投了家复刻马斯克声音的AI公司

这次升级主打一个“又快又能说”：

响应延迟压缩到250ms以内，支持40多种语言和所有口音，还能准确识别网址、邮箱、金额、日期、电话号码等各种“非标准文本”。

简单来说就是，以后哪怕你口音重、说得快，还掺着报邮箱和支付宝账号，它也能一次性听明白、说清楚。

好好好。

照这么下去，估计以后AI不光能学人说话，还能用说快板的速度讲自己的创业融资故事了。（doge）

以及还有一个小问题，据说语音模型的商业化变现，目前在大模型领域可谓一枝独秀，你听说了吗？

文章来自于“量子位”，作者 “梦瑶”。

关键词: AI新闻 , AI语音 , Cartesia , Sonic-3

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales