如果我不说,你能分清哪个是马斯克本人的声音吗?

大NO特NO!!!其实这俩都不是。。。
这段堪比“本尊”的语音,就出自语音AI公司Cartesia刚刚发布的语音模型Sonic-3。
伴随新模型对外公布的还有新融资:
Cartesia披露完成1亿美元的B轮融资,投资方里英伟达赫然在列。
此外,这家公司之所以如此受关注,还跟其创始人密切相关。
其创始人、CEO是来自斯坦福AI Lab的印度天才少年Karan Goel ,之前就在状态空间模型(SSM)领域锋芒毕露了。
是时候认识认识Cartesia了~
Cartesia这家公司,开局就是典型硅谷精英剧本。
Cartesia的初始核心成员,清一色来自斯坦福AI实验室,妥妥的学术派大拿班底。
其中,Cartesia首席科学家和联合创始人Albert Gu还是一名华裔,也是是Mamba架构的共同发明人之一。

△从左往右第三位为Albert Gu
其实,Cartesia从一开始没走主流圈子还在卷的Transformer老路,一上来就盯准了实时语音AI。
正因为一开始目标就定得足够明确,以至于公司成立后的发展节奏可以用两个字概括——
那就是:飞快…
Cartesia成立的第二年,就拿下了种子轮融资,同年推出首款核心产品:语音模型Sonic,能生成跟真人一样自然、带情感的高质量语音。
今年又又又开始加速商业化和产品迭代,3月完成6400万美元的A轮融资,并发布了支持语音克隆与风格迁移的Sonic-2.0。
这不刚刚,他们又从Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA那边筹钱,宣布完成了1亿美元的B轮融资。
从发布节奏到融资节奏,Cartesia基本把“边卷技术边收钱”这件事,执行到了极致了…

咱再回过头来看一眼这次跟融资一同发布的主角——Sonic-3。
这代语音模型相较于前作,最大的升级在于两个字:更像人。
它不仅能更准确地捕捉语言中的情绪波动,还能表达出笑声、语气起伏,以及那些微妙又真实的情感变化,而且响应非常快,不信你听:

与大多数依赖Transformer架构的语音AI不同,Sonic-3是基于状态空间模型(SSM)构建的。
传统Transformer的处理方式,是“反复回放”:每次生成回应前都要重新遍历所有对话历史,这种方式在多轮对话里既慢又容易“卡顿”。
而SSM更像人类大脑的思维模式,它能持续感知上下文和对话氛围,不需要每句话都从头再来一遍,AI回应的会更省力也更自然一些。
这也让Sonic-3在回应速度上也有了提升:Sonic-3模型延迟仅90毫秒,端到端响应时间只有190毫秒,几乎是当前速度最快的语音生成系统之一。
行了,照这趋势发展下去,开语音会的都不一定是真人了…
Cartesia CEOKaran Goel目前人生履历完全可以拍成《三傻大闹宝莱坞·硅谷篇》。

他出身新德里一个做科研器材的老牌家族。
本科就读于印度理工学院德里分校,是印度最顶尖的工程院校之一,许多硅谷和印度创业者出自该校。
后来,又去卡内基梅隆大学计算机科学学院攻读了硕士学位,还获得了全球顶尖研究生才能拿到的Siebel Scholar奖学金。

随后直通斯坦福AI实验室,师从AI教父级人物Chris Ré。
没错,就是那位用Snorkel开创“弱监督数据标注”方法、后来把其初创公司Lattice卖给苹果的技术大牛。
此外,Karan Goel在校期间就对SSM颇有研究,在斯坦福读博期间就和Albert Gu等同门一起发表和状态空间模型相关的论文。
也就是在那个时候,一群斯坦福PhD生决定把学术研究直接“变现”成产品。
包括Karan Goel在内的团队成员,将他们在斯坦福AI Lab研究的状态空间模型(SSM)架构打包进了后来的Cartesia公司。
你品,你细品,从斯坦福杀出、从论文里走出,再到1亿美元砸进来——Cartesia走过来的每一步真可谓是“步步为营”啊~

光国外热闹,咱这边的语音AI产品也没闲着。
就在今天,MiniMax也上了新活儿——语音模型MiniMax Speech 2.6发布了。

这次升级主打一个“又快又能说”:
响应延迟压缩到250ms以内,支持40多种语言和所有口音,还能准确识别网址、邮箱、金额、日期、电话号码等各种“非标准文本”。
简单来说就是,以后哪怕你口音重、说得快,还掺着报邮箱和支付宝账号,它也能一次性听明白、说清楚。
好好好。
照这么下去,估计以后AI不光能学人说话,还能用说快板的速度讲自己的创业融资故事了。(doge)
以及还有一个小问题,据说语音模型的商业化变现,目前在大模型领域可谓一枝独秀,你听说了吗?
文章来自于“量子位”,作者 “梦瑶”。
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales