前几天大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。
说明了一个问题,现在AI模型的供给侧,依旧是没有看起来的那么成熟。
大多数人只关注到LLM,其实AI音乐的情况更野蛮,更荒谬。。
Suno,全球用户量最大的AI音乐产品,融了2.5亿美金,月活千万级别。但直到今天,它都没有开放官方API。Udio,也没有。
一条冷知识:
几乎所有头部AI音乐产品,都不卖API。
我也是最近调研这个选题才知道的。
这意味着什么?全球想在自己产品里接AI音乐能力的企业,只剩一条路:灰产中转。没有SLA(服务等级协议,不承诺服务质量)、没有售后、生成质量开盲盒,出了问题找不到人。
所以AI音乐在B端一直很尴尬。C端卷上天了,各种产品月活都在涨。但B端始终没真正跑起来。
最近这个局面出现了裂口。
北美一个增长很猛的AI音乐创作平台Sondo,之前也吃灰产,今年初却做了个反直觉的动作:接入Mureka,替换Suno。哪怕单价贵出一截,也要把灰产全砍了。

一家精打细算的增长期公司,却主动选更贵的方案。光是这个决定本身,已经能说明问题了。
据介绍,Sondo全量切换到Mureka后,双方的合作体量增长超过70%。Sondo的音乐核心业务翻倍增长。
快歌,国内头部AI音乐生成应用,也选择了Mureka,其海外版未来也会坚定接入Mureka。另有一家海外头部AI artist平台,接入后消耗规模翻了6倍。
三家企业,诉求各不相同—Sondo要质量,快歌要中文,海外平台要合规,都同时做了同一个动作,切换模型API。
所以,这里面有一个问题值得追问:凭什么是Mureka?
CoT,Chain-of-Thought,思维链,是大模型领域这两年最重要的概念之一,核心就一句话,让AI先想再答,不要上来就蒙。加上“Let's think step by step”一句提示,模型的推理能力就能跳一个台阶,因为它强制把模型的思考过程摊开了。
这个思路在文本领域已经被验证得很充分了。Mureka做的事情是把它搬到了音乐创作里。
之前AI音乐的生成方式,本质上是猜下一个音符。模型写完第一个音,根据概率猜第二个,再猜第三个,一路猜到结尾。这个过程没有规划、没有全局观,运气差走到一半副歌直接崩掉。
MusiCoT做的事,是让AI在写第一个音符之前,先想清楚整首歌。
它在生成音乐前先进行宏观规划,深度融合了对音乐结构、歌词段落、表达意图与声音呈现之间关系的协同建模。
这使得模型超越了单纯的文字转音频工具属性,具备了类似人类的创作逻辑:不仅能决定唱什么,更能理解怎么唱以及为何这样推进。
这个范式的变化直接体现在了Mureka V9的五项升级上,而且每一项都精准对应企业生产中最头疼的问题:
这五项升级叠在一起的效果是:从生成之后人工二次处理,变成了生成即可发布。
所以Sondo对Mureka的评价是:
“人声效果更具真人感,可以直接对接产研团队。”

老版本V7.6的评价是“差强人意”,新版本V8的评价是“可以直接对接产研团队”。
转变是在今年1月份,Mureka V8上线之后。Sondo内部做了一轮覆盖多场景的A/B测试,Mureka稳定胜出,所以渐渐拿到了音乐模型调用量的绝对大头,现在是全量切换。
不是Sondo突然降低了标准,是Mureka的输出质量远超过了生产线的及格线。AI生成的素材不用人工再过一道了,已经是音乐创作工作流的一环。
榜单成绩也在验证这个结论。今年3月,搭载MusiCoT框架的Mureka V8在Artificial Analysis Music Arena上拿下人声和器乐双榜第一,综合超越Suno、Udio、Google Lyria等一众主流竞品。


随后,V9在外部音乐专家的主观盲评中,四个评测维度领先。

如果把Mureka从V1到V9的演进串起来看,有一条不太被注意到的技术复利曲线:
从技术关键节点看,每一步都在推动同一件事情:让AI音乐变得可控、可信任、可量产。
为了验证这套作曲家大脑的能力,我盘了盘它!
首先,我试了下堪称“二创神器”的Remix功能,不仅能把已有歌曲混音成任意曲风,还支持改写歌词、切换风格和 AI 再创作。
我先用最近最洗脑的高难度歌曲《心愿便利贴》来试试,我传了歌词和原曲,让它remix成抒情钢琴为主的pop风格,真的很惊艳:


做测评这么久,我一直都是给所有带着AI流水线味的作品打低分,但这版Remix不一样,值得我的一个高分。
因为这首歌本身就很难改,但是这个remix版本既保留了原有的甜甜的少女感,又有很强的情绪起伏,副歌旋律还特别抓耳。

旋律走向和分词逻辑都很顺滑,完全没有那种廉价的生硬感,我循环听了好几遍。
趁热打铁,我又拿王心凌的《第一次爱的人》试了一把。
大家听听看,这改编能力确实有点东西:

该改的地方改,该保留的保留,特别是在副歌的节奏上的处理,给了我一种耳目一新的创新感。
如果说以前的AI只是在拙劣模仿,缺乏灵性和创作理解;而现在的 Mureka,则真正开始展现出创作能力—它不仅理解原曲结构,还能用自己的方式去重新编排、赋予歌曲新的生命,每一个版本都有惊喜。
Mureka V9 最让我上头的是它的Studio 模式。
以前 AI 生成的音乐像个一锅粥—人声、乐器全搅在一起,想后期修个音或者换个鼓太难了惹。
Studio 模式提供了一个可视化的多轨时间线,可以像专业制作人一样,控制 BPM、音量、音高,对音频进行分层叠加:
它把原本复杂的 DAW 操作,变成了一种自然语言驱动直觉式的创作体验。
以前是“生成”,现在是真的在“做音乐”。
为了测评,我假装了一回音乐总监,开始搞音乐了!

我先是扔给它一段最基础的 Base 音轨,想试试它的单轨生成功力:

结果它瞬间给我配上了一组严丝合缝的鼓点:

把两者叠在一起听,融合感很绝和默契—不是简单的叠加,而是和谐的你一拍我一拍地演奏这感觉太自由了。


接着,我玩了个更进阶的,给我的人声定制伴奏。
先让 Mureka 生成一段 Base 人声:

然后我下达指令:“我要 crisp dembow beat, congas, claps(清晰的 Dembow 节奏、康加鼓、掌声)。”
生成的结果能听到每一个元素—无论是康加鼓的律动还是掌声的颗粒感,都精准地包裹着人声,声量、节奏、音调控制得恰到好处,完全不是那种喧宾夺主的合成感。

既然能给伴奏配人声,那反过来呢?
我上传了一段我认为节拍快整体填词很难搞的伴奏,让它自己配人声。

然后他给我生成了人声歌曲,人声咬字、断句,甚至是情绪起伏,全都精准地踩在了节拍上:

它能基于某一轨道一键生成人声、伴奏或单一乐器,且与原始音频自然和谐地叠加,还支持外部样本上传,真正地达到了人机共创。
说回开头的问题。
AI的供给侧为什么看起来成熟、实际上很脆弱。因为大部分AI产品的思路还停留在C端,做一个好玩的东西,让用户觉得好酷。
但是企业端要的是:稳定、可控、合规、有售后。
当 AI 不再是一个不可解释的黑盒,而是能够被拆解、被微调、被控制的工业单元时,它才算真正拿到了生产力的入场券。 从 2024 年首发端到端模型,到 MusiCoT 框架,再到现在的 V9,Mureka 这一路其实只在做一件事跨越鸿沟。
这条鸿沟的一边是实验室里的随机奇观,另一边是工业界的确定性产能。
据报道,全球已经有8000多家企业接入Mureka ,包括短视频内容、AI创作工具、数字素材市场、视频制作等应用场景。
B端采购是最理性的决策。不存在冲动消费,不存在为信仰充值。一家企业愿意消费,只有一个原因,算过账,划算。
这才是AI音乐真正的分水岭—模型的输出质量能跨过「生成即可用」这条线。
文章来自于"夕小瑶科技说",作者 "夕小瑶编辑部"。
【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。
项目地址:https://github.com/gcui-art/suno-api
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner