A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型
7980点击    2025-12-27 14:29

过去一年,AI 视频生成在模型能力与产品形态上快速迭代,视频产出的边际成本持续下降,生成速度与可控性显著提升。今天不少 AI 创作者都经历过:画面几分钟出片,真正让人头大的,是后面的音效、配乐、节奏、氛围一整套费时的对齐工作。


在这种背景下,欧洲音频公司 Mirelo AI 刚刚拿下 4100 万美元种子轮,由 a16z 与 Index Ventures 领投。他们不是再做一个剪辑工具,而是训练自己的音频模型,主打用户给视频,Mirelo 补上所有声音。自动生成音效与配乐,并把它们精确同步到画面上。


A16z 4100万美元领投Mirelo,重磅押注欧洲音频大模型


本文基于 Scaling Europe 对 Mirelo AI 的联合创始人的深度专访整理而成。这家公司只有十来人,却在的视频到音效模型评测上做到同类最强。在音频这条赛道,竞争可能不再是“谁能砸最多算力”,而是谁更懂声音、数据与表征。


 Speaker 个人介绍


1. Seb Johnson:运营欧洲科技媒体平台 Scaling Europe,通过播客/直播访谈与newsletter持续报道欧洲创业与投融资动态,定位是“每周和欧洲最好的创业者与投资人对话”。


2. CJ Simon-Gabriel:Mirelo AI 联合创始人 & CEO,带队在欧洲训练“面向视频与游戏的音频基础模型”,核心要解决 AI 视频无声、缺声”的产业痛点,将能力落到两类模型与产品形态,面向创作者的 Mirelo Studio(偏 B2C)与面向平台、企业的 API(偏 B2B)。其公司 Mirelo近期宣布 4100 万美元种子轮,由 Index Ventures 与 Andreessen Horowitz(a16z)共同领投。


Mirelo 的起点:从 AI 研究者与音乐人的交汇到“视频全音频”


Seb Johnson大家好,欢迎回到《Scaling Europe》节目。我是 Seb Johnson。我和 CJ Simon-Gabriel 一起在这里。CJ 是 Mirelo AI 的联合创始人之一。Mirelo AI 刚刚宣布了一个非常夸张的 4100 万美元种子轮,由 A16z 和 Index Ventures领投。这是一笔很大的融资,而且由一些真正的顶级 VC 领投。我觉得特别有意思的是,你们是在欧洲做一个“基础模型”。所以对那些不了解的人,你能不能先快速介绍一下 Mirelo AI?


CJ:谢谢你邀请我。我们主要聚焦在为视频内容和游戏做“音频”。所以我们现在做的主要是音乐和音效我们的想法其实很简单,你把你的视频给我,我们告诉你“哪里该用什么声音”,并且把音频生成出来。你可以生成音效,也可以加上音乐。


Seb Johnson:你为什么决定做这个业务?


CJ:我和我的联合创始人 Florian 在 AI 研究上大概做了 10 年。所以我们一直想做 AI相关的事情。但我们俩也都是音乐人。我自己可能在斯特拉斯堡音乐学院和音乐学院体系待的时间,比我在学校待的时间还多。我弹钢琴、管风琴,也做一点作曲。Florian 则是在柏林的电子音乐圈里非常深。所以把这两件事结合起来,是一个顺理成章的选择。


我们之前在 AWS lablet 工作,做 AI,一开始是大型视觉模型,后来做大型语言模型。我们看到在 ChatGPT 之后,所有人都开始搞大语言模型,我们就想,那我们为什么不换个方向,做点别的?比如音乐和声音。所以我们决定去做 Mirelo,而且很快我们又从“只做音乐”变成要做“视频的全部音频”。因为这里需求很大,对很多人来说这是一个很大的痛点。


从隐身训练到产品落地:两大模型与 Mirelo Studio


Seb Johnson:你们公司大概两年前成立,对吧?现在看到用户主要怎么用?


CJ:首先,我们在保密状态其实挺久的。因为我们训练的是自己的模型,这需要时间。一开始团队真的非常小,两位创始人 + 一个创始工程师,总共三个人。所以我们先要把团队搭起来,再去训练模型。


现在我们有两个模型1. 音乐模型(music model)2. “视频到音效”(video-to-sound-effect)模型


我们非常开心的是,它们在评测上表现得非常好。事实上,尽管我们可用的资本要少得多,即使我们面对的是一些非常大的实验室在这个方向竞争,但它们依然是同类最强,尤其是这个“视频到音效模型”。


我们刚刚才开始把它产品化,开始做 Mirelo Studio。目前最主要的用例是,给 AI 视频加音效、加配乐,有时也加音乐轨。现在主要是 AI 视频创作者在用我们的软件。但长期目标是,为任何视觉、视频内容提供音频,之后也会做游戏。未来我们也希望它能被专业人士使用,不只是 AI 创作者。


为什么要自建模型,而不是用多模态堆栈


Seb Johnson:你们自己训模型,而且团队很精干。为什么要自己训而不是用现成的多模态技术栈?


CJ:两年前几乎没有音频模型,所以几乎没得选。但对我们来说,这反而是非常好的事。因为你专注在音频上,就有机会真的做出一个“真正的模型”。原因是这个领域研究更少,其他实验室关注也更少,尤其是音效和音乐。现在稍微热起来一点,音效依然是非常小的方向,两年前更小。所以如果你想要一个好的音效、音乐模型,我们必须自己做。这是我们的模式而且它是一个很大的机会。


Seb Johnson:我读到你们的模型很轻量,算力需求比典型大语言模型少 50 倍。你们怎么做到的?


CJ:音频的另一个大优势是,这些模型通常就更小。当然我们也在投入,让它更高效。关键在于你用的编码器,可以理解成音频的分词器。也就是你如何表示音频,让机器能读。如果你能更高效地编码音乐,你的模型就能更高效。但最主要的原因是,音频模型本来就比大语言模型小很多。


比如多数 text-to-speech 模型的参数量通常在 10 亿到 100 亿(1–10 billion),而不是那种万亿级。所以这也是为什么做这个方向很合理,你不会遇到大语言模型那种疯狂的算力开销。


音乐背景的作用:动机、招聘、表征视角


Seb Johnson:你和你联合创始人的音乐背景在训练模型和开发音频上起到什么作用?


CJ:它是巨大的动力。创业需要激情,确实像大家说的是“过山车”。没有内在动力的话,会非常困难。而且它对招聘也帮助很大。很多 AI 科学家其实都很喜欢音乐。自己是音乐人,或者工作时听很多音乐。所以当你告诉他们,你可以来欧洲,在一家训练自己“基础模型”的公司工作,把 AI 和音乐结合起来,很多人会非常喜欢。而且在欧洲这种机会不多,所以也帮我们招到非常优秀的人。


如果你做过很多音乐,你会有某种视角。你会用和声、表征方式去思考,你知道音乐在乐谱里怎么被表示。这也会影响你怎么构建架构、怎么表示音乐。而“音乐表征”其实是你训练模型时核心 IP 的一部分。


4100 万美元种子轮:投资人为什么投


Seb Johnson:谈到招聘和在欧洲构建,你们有没有想过把团队搬去别的地方,比如被认为技术人才更密集的地区?


CJ:没有那种“更好的地方”。很多人说这话的时候指的是旧金山、西海岸。但为什么要把技术团队放在西海岸?你完全可以放在欧洲。欧洲的科学家同样优秀。可能密度低一点,但他们的去处也更少,所以当你是少数在做这件事的公司,你在欧洲反而选择更多。而且在欧洲被挖人的情况也少很多。我和旧金山的创始人聊天,他们经常讲“挖人故事”,太夸张了。欧洲也有,但规模小很多。


所以在技术团队这块,我看不到把它放在旧金山的巨大优势。我不排除未来在那边建团队,但从根本上看,优势不明显。不过如果你谈 go to market 就不一样,那里创业公司更集中,从市场角度确实很有意思。但对技术团队来说,欧洲足够了。欧洲经常缺的只是资本


Seb Johnson:你们拿了 4100 万美元种子轮,Index Ventures和 A16z 共同领投。是什么让他们有信心?


CJ:本质上就是技术和团队。因为我们用极其小的投入,相对于训练基础模型来说是“荒谬般地小”,训练出了一个在 benchmark 上领先的东西,而且领先很多。甚至对比一些大公司,比如 TencentSony 的模型等等。


“小团队也能做前沿模型”会成为未来吗(音频 vs LLM 的竞争逻辑)


Seb Johnson这会是未来吗?我们看到很多新闻,比如 OpenAI 拉响红色警报,以及其他大模型追赶他们。你们却用更小更精干的团队和更少资本做出了领先模型。你觉得这会是所有前沿模型的未来吗?


CJ:我不确定是不是所有前沿模型都这样,但至少在音频上,很可能会保持这种状态。因为音频模型的规模并没有在爆炸式增长。也就是说,把模型做得更大并不会带来明显收益这和大语言模型很不同,LLM 很大程度上就是数据集有多大、数据中心有多大、模型就能有多大,模型越大就越强。所以 LLM 的竞争主要就是,谁能融更多钱建更大的数据中心、训更大的模型。


音频不是这样。音频的好处是你竞争的不是资本规模,而是你研发模型的能力。这更不资本密集,让创业公司也更有机会和大实验室对抗。大厂失去了它的主要优势,也就是它们有几百亿的现金流可以砸数据中心。因为在音频里,这个优势不怎么管用。


商业化路径:B2C Studio + B2B API;“音频是视频的一半”


Seb Johnson:往前看,你说你们要开始把产品推向市场。会怎么合作?直面消费者、还是和大公司合作?你们的路径是什么?


CJ:两条路都做。一方面我们有 Mirelo Studio,直面消费者。现在它的目标用户是 AI 创作者、普通消费者、不是声音专业人士但需要为视频做高质量声音的人。长期我们也希望它能服务专业人士。给他们新的工作方式,减少手动对齐同步带来的痛苦,同时保留“反复迭代声音”的乐趣。


但目前还需要一些研发:


  • 我们需要更多编辑能力(editing capabilities)


  • 可能还要提升音质,因为我们现在还没到 Dolby Digital 那种级别,这些都会逐步实现。


这也有点像 AI 视频生成的发展,一开始只是 text-to-video 或者 image-to-video,控制很少;现在新一代模型开始有更多编辑能力,比如改某个对象、替换物体等等。这些“编辑能力”未来也会出现在音频里。我们从现在的基础能力,你给视频我们生成所有声音再进化到加入编辑能力,它会覆盖从 AI 创作者、爱好者到专业工作室的更广人群。


然后我们还有 API,我们也非常愿意把模型卖给其它平台,尤其是各种 AI 视频生成平台。我认为他们应该把音频当成一个独立层,而不是视频的“附属品”。因为音频是视频的 50%。说这句话的人是 George Lucas,声音至少占电影体验的 50%。


这完全正确,因为声音决定氛围和情绪。你搞错声音,观众会感受到完全错误的情绪。同一个视频,你只要换声音,氛围就能完全改变。


所以你必须把音频当成独立的东西来做。当然,未来的视频模型可能会开始带一点声音,但这对我们不改变什么。因为声音总是需要作为第二层来思考、迭代、编辑、修改。人的耳朵对声音极其敏感,因为我们也用声音交流。历史上电影行业一直如此,先拍画面,尽量减少现场声,然后用一整套不同的软件、拟音师等,再把音频层加上去,因为音频层决定你想要的氛围。我认为这不会改变。我们希望拥有这段技术栈的那一部分。但如果视频生成公司想把这第二部分也集成到他们的平台里,我们也很乐意让他们接入我们的模型。


音效 vs 音乐:团队规模、先后顺序、牵引力


Seb Johnson:你们会同等重视音效和音乐吗?还是先主攻音效,再兼顾音乐?


CJ:我们大概只有 10 人,所以必须聚焦。一开始我们更从音乐做起,因为创始人最有激情,团队里最早的成员很多也是音乐人。但很快我们发现音效的需求也很大,因为几乎没有人做这个。而且结果是,我们在音效上获得了最多用户牵引和增长势能,也可能因为这最能让我们差异化。


我们现在有一个模型,你给我视频,我们在几秒内(比实时还快)生成这段视频的所有音效。比如狗叫、天上的海鸥、开过去的车等等。我们也会自动把这些声音和画面同步。这就是我们现在增长最大的点,所以我们先聚焦这个。但有了这笔新资金后,我们终于可以招人,同时推进不同方向的技术工作。我们想拥有“所有音频”,音乐是一部分,音效是一部分,所以两边都会做。


招人计划:研究、产品、商业化三条线


Seb Johnson:当团队从 10 人扩到 20、30、40、50……你们最先会招哪些人?


CJ:所有方向都要招。公司核心一直是技术,我们在音频上的技术和 know-how。所以我们肯定要扩模型团队,研究科学家至少要把人数翻倍,甚至三倍。但现在有了技术,我们也要把 M Studio 做得更酷、更好,甚至做更多产品。


产品团队现在只有 2 个人,我们希望很快做到至少 6 个人,然后再看是否需要更多。第三块是 go to market,营销、增长、可能还有销售。因为我们卖两样东西,M Studio(偏 B2C)和 API(偏 B2B)。还有随着规模扩大,你还需要一切公司运转所需的职能。


未来 18–24 个月成功标准:让市场理解“音频的重要性”


Seb Johnson:往前看,未来 18–24 个月要成功,需要什么事情发生?


CJ:我们希望看到越来越多的人在用 Mirelo Studio 但我觉得我们真正会赢,是当人们理解,音频对视频有多重要


今天大多数人并没有意识到这一点。音频总是被当成“最后才想起的东西”,无论是 AI 视频创作者还是 YouTuber,你先想内容、故事、拍摄……到流程很后面你才突然想起,我还需要音频,我还需要配乐。而且这通常是那个“很烦、你又不会做、但你必须在两天内解决”的部分。因为你两天后就要发布视频。


但这很荒谬,因为如果真的是“成功的一半取决于音频质量”,那就说明大项目应该更早重视它。所以像好莱坞大片、3A 游戏,其实会在很早就开始考虑音频,游戏开发一开始就做。电影仍然是后期做,但也会花很多时间去做正确的配乐与音乐轨。


如果一年或两年后,我们看到越来越多人开始重视音频、理解它的重要性,那我觉得我们就赢了。因为这也意味着,大家能更清楚地认识到音频的经济价值。如果视频成功的 50% 取决于声音,那你把声音做好,就会有更多点击、更多收入。所以音频有非常大的经济层面的价值。


如果我们能让创作者,以及视频生成平台都理解,音频超级重要,他们需要认真思考怎么集成它,而不是当成“事后补丁”,而是把它当作视频创作的第二个核心层面,那我们就赢了。因为这样会有更多人需要高质量音频,而我们会用最强的模型去服务他们。


Seb Johnson:


太棒了。这很有意思。你们的工作不只是做产品和卖产品,还要教育市场音频到底多重要。


CJ,谢谢你来。这个故事很能代表欧洲过去几年能做出的东西,我们能在欧洲训练出很棒的模型,也能拿到扩张所需的资本。祝你们好运。


CJ:谢谢这次采访。大家去试试我们的产品吧。


文章来自于微信公众号 “深思SenseAI”,作者 “深思SenseAI”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales