AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

7499点击 2026-05-26 10:04

前几天大模型圈子有个很魔幻的场面，傅盛、孙宇晨、特朗普家族，三个八竿子打不着的人，开始扎堆做大模型中转站的生意。

说明了一个问题，现在AI模型的供给侧，依旧是没有看起来的那么成熟。

大多数人只关注到LLM，其实AI音乐的情况更野蛮，更荒谬。。

Suno，全球用户量最大的AI音乐产品，融了2.5亿美金，月活千万级别。但直到今天，它都没有开放官方API。Udio，也没有。

一条冷知识：

几乎所有头部AI音乐产品，都不卖API。

我也是最近调研这个选题才知道的。

这意味着什么？全球想在自己产品里接AI音乐能力的企业，只剩一条路：灰产中转。没有SLA（服务等级协议，不承诺服务质量）、没有售后、生成质量开盲盒，出了问题找不到人。

所以AI音乐在B端一直很尴尬。C端卷上天了，各种产品月活都在涨。但B端始终没真正跑起来。

最近这个局面出现了裂口。

北美一个增长很猛的AI音乐创作平台Sondo，之前也吃灰产，今年初却做了个反直觉的动作：接入Mureka，替换Suno。哪怕单价贵出一截，也要把灰产全砍了。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

一家精打细算的增长期公司，却主动选更贵的方案。光是这个决定本身，已经能说明问题了。

据介绍，Sondo全量切换到Mureka后，双方的合作体量增长超过70%。Sondo的音乐核心业务翻倍增长。

快歌，国内头部AI音乐生成应用，也选择了Mureka，其海外版未来也会坚定接入Mureka。另有一家海外头部AI artist平台，接入后消耗规模翻了6倍。

三家企业，诉求各不相同—Sondo要质量，快歌要中文，海外平台要合规，都同时做了同一个动作，切换模型API。

所以，这里面有一个问题值得追问：凭什么是Mureka？

◽MusiCoT：从猜音符到读懂整首歌

CoT，Chain-of-Thought，思维链，是大模型领域这两年最重要的概念之一，核心就一句话，让AI先想再答，不要上来就蒙。加上“Let's think step by step”一句提示，模型的推理能力就能跳一个台阶，因为它强制把模型的思考过程摊开了。

这个思路在文本领域已经被验证得很充分了。Mureka做的事情是把它搬到了音乐创作里。

之前AI音乐的生成方式，本质上是猜下一个音符。模型写完第一个音，根据概率猜第二个，再猜第三个，一路猜到结尾。这个过程没有规划、没有全局观，运气差走到一半副歌直接崩掉。

MusiCoT做的事，是让AI在写第一个音符之前，先想清楚整首歌。

它在生成音乐前先进行宏观规划，深度融合了对音乐结构、歌词段落、表达意图与声音呈现之间关系的协同建模。

这使得模型超越了单纯的文字转音频工具属性，具备了类似人类的创作逻辑：不仅能决定唱什么，更能理解怎么唱以及为何这样推进。

这个范式的变化直接体现在了Mureka V9的五项升级上，而且每一项都精准对应企业生产中最头疼的问题：

段落级文本控制——歌词的情绪重心能准确落在你想让它爆发的位置。以前是歌词被唱出来了，现在是歌词在对的段落被准确表达了。
混音与音质——人声和伴奏的层次分开，接近母带级，不是糊成一团的廉价感。
人声表达——演唱变得克制，减少了莫名其妙的飙高音和杂音干扰。听起来像一个真人在唱，而不是AI在炫技。
生成效率——推理链路优化之后，试错成本下降。企业不用再花大量时间反复抽卡。
生成多样性——同一个方向下能探索更多可能性，不会生成五次出来五首差不多的歌。

这五项升级叠在一起的效果是：从生成之后人工二次处理，变成了生成即可发布。

所以Sondo对Mureka的评价是：

“人声效果更具真人感，可以直接对接产研团队。”

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

老版本V7.6的评价是“差强人意”，新版本V8的评价是“可以直接对接产研团队”。

转变是在今年1月份，Mureka V8上线之后。Sondo内部做了一轮覆盖多场景的A/B测试，Mureka稳定胜出，所以渐渐拿到了音乐模型调用量的绝对大头，现在是全量切换。

不是Sondo突然降低了标准，是Mureka的输出质量远超过了生产线的及格线。AI生成的素材不用人工再过一道了，已经是音乐创作工作流的一环。

榜单成绩也在验证这个结论。今年3月，搭载MusiCoT框架的Mureka V8在Artificial Analysis Music Arena上拿下人声和器乐双榜第一，综合超越Suno、Udio、Google Lyria等一众主流竞品。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

随后，V9在外部音乐专家的主观盲评中，四个评测维度领先。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

如果把Mureka从V1到V9的演进串起来看，有一条不太被注意到的技术复利曲线：

2024年2月，V1（SkyMusic）：中国首发端到端音乐生成模型，验证技术路线能跑通；
2025年3月，V6+O1：MusiCoT框架上线，首次达到SOTA；
2026年1月，V8：面向真实创作场景的整体跃迁——从「能生成」到「能发布」；
2026年3月，V9：从「能写出来」到「能按你想的方式写出来」。

从技术关键节点看，每一步都在推动同一件事情：让AI音乐变得可控、可信任、可量产。

◽生产力上手实测

为了验证这套作曲家大脑的能力，我盘了盘它！

首先，我试了下堪称“二创神器”的Remix功能，不仅能把已有歌曲混音成任意曲风，还支持改写歌词、切换风格和 AI 再创作。

我先用最近最洗脑的高难度歌曲《心愿便利贴》来试试，我传了歌词和原曲，让它remix成抒情钢琴为主的pop风格，真的很惊艳：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

做测评这么久，我一直都是给所有带着AI流水线味的作品打低分，但这版Remix不一样，值得我的一个高分。

因为这首歌本身就很难改，但是这个remix版本既保留了原有的甜甜的少女感，又有很强的情绪起伏，副歌旋律还特别抓耳。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

旋律走向和分词逻辑都很顺滑，完全没有那种廉价的生硬感，我循环听了好几遍。

趁热打铁，我又拿王心凌的《第一次爱的人》试了一把。

大家听听看，这改编能力确实有点东西：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

该改的地方改，该保留的保留，特别是在副歌的节奏上的处理，给了我一种耳目一新的创新感。

如果说以前的AI只是在拙劣模仿，缺乏灵性和创作理解；而现在的 Mureka，则真正开始展现出创作能力—它不仅理解原曲结构，还能用自己的方式去重新编排、赋予歌曲新的生命，每一个版本都有惊喜。

Mureka V9 最让我上头的是它的Studio 模式。

以前 AI 生成的音乐像个一锅粥—人声、乐器全搅在一起，想后期修个音或者换个鼓太难了惹。

Studio 模式提供了一个可视化的多轨时间线，可以像专业制作人一样，控制 BPM、音量、音高，对音频进行分层叠加：

想加料：用 AI 单轨道生成，基于现有轨道一键补上人声或乐器，和谐叠加。
想拆解：用 Stem Extract，把成品智能拆成独立音轨（人声、贝斯、鼓等），随时导出 MIDI 接入你的主力 DAW。
想改词：用局部编辑，选中片段直接改，不用全盘重来，衔接自然得像没改过一样。

它把原本复杂的 DAW 操作，变成了一种自然语言驱动直觉式的创作体验。

以前是“生成”，现在是真的在“做音乐”。

为了测评，我假装了一回音乐总监，开始搞音乐了！

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

我先是扔给它一段最基础的 Base 音轨，想试试它的单轨生成功力：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

结果它瞬间给我配上了一组严丝合缝的鼓点：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

把两者叠在一起听，融合感很绝和默契—不是简单的叠加，而是和谐的你一拍我一拍地演奏这感觉太自由了。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

接着，我玩了个更进阶的，给我的人声定制伴奏。

先让 Mureka 生成一段 Base 人声：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

然后我下达指令：“我要 crisp dembow beat, congas, claps（清晰的 Dembow 节奏、康加鼓、掌声）。”

生成的结果能听到每一个元素—无论是康加鼓的律动还是掌声的颗粒感，都精准地包裹着人声，声量、节奏、音调控制得恰到好处，完全不是那种喧宾夺主的合成感。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

既然能给伴奏配人声，那反过来呢？

我上传了一段我认为节拍快整体填词很难搞的伴奏，让它自己配人声。

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

然后他给我生成了人声歌曲，人声咬字、断句，甚至是情绪起伏，全都精准地踩在了节拍上：

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

它能基于某一轨道一键生成人声、伴奏或单一乐器，且与原始音频自然和谐地叠加，还支持外部样本上传，真正地达到了人机共创。

◽结语

说回开头的问题。

AI的供给侧为什么看起来成熟、实际上很脆弱。因为大部分AI产品的思路还停留在C端，做一个好玩的东西，让用户觉得好酷。

但是企业端要的是：稳定、可控、合规、有售后。

当 AI 不再是一个不可解释的黑盒，而是能够被拆解、被微调、被控制的工业单元时，它才算真正拿到了生产力的入场券。从 2024 年首发端到端模型，到 MusiCoT 框架，再到现在的 V9，Mureka 这一路其实只在做一件事跨越鸿沟。

这条鸿沟的一边是实验室里的随机奇观，另一边是工业界的确定性产能。

据报道，全球已经有8000多家企业接入Mureka ，包括短视频内容、AI创作工具、数字素材市场、视频制作等应用场景。

B端采购是最理性的决策。不存在冲动消费，不存在为信仰充值。一家企业愿意消费，只有一个原因，算过账，划算。

这才是AI音乐真正的分水岭—模型的输出质量能跨过「生成即可用」这条线。

文章来自于"夕小瑶科技说"，作者 "夕小瑶编辑部"。

关键词: AI新闻 , AI音乐 , Mureka , 人工智能

添加客服微信openai178，进AITNT官方交流群

AI转型,免费服务,就找AITNT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能，并封装好API的AI音乐项目。
项目地址：https://github.com/gcui-art/suno-api

2

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

3

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner