AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?
6885点击    2026-05-26 10:04

前几天大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。


说明了一个问题,现在AI模型的供给侧,依旧是没有看起来的那么成熟。


大多数人只关注到LLM,其实AI音乐的情况更野蛮,更荒谬。。


Suno,全球用户量最大的AI音乐产品,融了2.5亿美金,月活千万级别。但直到今天,它都没有开放官方API。Udio,也没有。


一条冷知识:


几乎所有头部AI音乐产品,都不卖API。


我也是最近调研这个选题才知道的。


这意味着什么?全球想在自己产品里接AI音乐能力的企业,只剩一条路:灰产中转。没有SLA(服务等级协议,不承诺服务质量)、没有售后、生成质量开盲盒,出了问题找不到人。


所以AI音乐在B端一直很尴尬。C端卷上天了,各种产品月活都在涨。但B端始终没真正跑起来。


最近这个局面出现了裂口。


北美一个增长很猛的AI音乐创作平台Sondo,之前也吃灰产,今年初却做了个反直觉的动作:接入Mureka,替换Suno。哪怕单价贵出一截,也要把灰产全砍了。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


一家精打细算的增长期公司,却主动选更贵的方案。光是这个决定本身,已经能说明问题了。


据介绍,Sondo全量切换到Mureka后,双方的合作体量增长超过70%。Sondo的音乐核心业务翻倍增长。


快歌,国内头部AI音乐生成应用,也选择了Mureka,其海外版未来也会坚定接入Mureka。另有一家海外头部AI  artist平台,接入后消耗规模翻了6倍。


三家企业,诉求各不相同—Sondo要质量,快歌要中文,海外平台要合规,都同时做了同一个动作,切换模型API。


所以,这里面有一个问题值得追问:凭什么是Mureka?


MusiCoT:从猜音符到读懂整首歌


CoT,Chain-of-Thought,思维链,是大模型领域这两年最重要的概念之一,核心就一句话,让AI先想再答,不要上来就蒙。加上“Let's think step by step”一句提示,模型的推理能力就能跳一个台阶,因为它强制把模型的思考过程摊开了。


这个思路在文本领域已经被验证得很充分了。Mureka做的事情是把它搬到了音乐创作里。


之前AI音乐的生成方式,本质上是猜下一个音符。模型写完第一个音,根据概率猜第二个,再猜第三个,一路猜到结尾。这个过程没有规划、没有全局观,运气差走到一半副歌直接崩掉。


MusiCoT做的事,是让AI在写第一个音符之前,先想清楚整首歌


它在生成音乐前先进行宏观规划,深度融合了对音乐结构、歌词段落、表达意图与声音呈现之间关系的协同建模。


这使得模型超越了单纯的文字转音频工具属性,具备了类似人类的创作逻辑:不仅能决定唱什么,更能理解怎么唱以及为何这样推进。


这个范式的变化直接体现在了Mureka V9的五项升级上,而且每一项都精准对应企业生产中最头疼的问题:


  • 段落级文本控制——歌词的情绪重心能准确落在你想让它爆发的位置。以前是歌词被唱出来了,现在是歌词在对的段落被准确表达了。
  • 混音与音质——人声和伴奏的层次分开,接近母带级,不是糊成一团的廉价感。
  • 人声表达——演唱变得克制,减少了莫名其妙的飙高音和杂音干扰。听起来像一个真人在唱,而不是AI在炫技。
  • 生成效率——推理链路优化之后,试错成本下降。企业不用再花大量时间反复抽卡。
  • 生成多样性——同一个方向下能探索更多可能性,不会生成五次出来五首差不多的歌。


这五项升级叠在一起的效果是:从生成之后人工二次处理,变成了生成即可发布。 


所以Sondo对Mureka的评价是:


“人声效果更具真人感,可以直接对接产研团队。”


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


老版本V7.6的评价是“差强人意”,新版本V8的评价是“可以直接对接产研团队”。


转变是在今年1月份,Mureka V8上线之后。Sondo内部做了一轮覆盖多场景的A/B测试,Mureka稳定胜出,所以渐渐拿到了音乐模型调用量的绝对大头,现在是全量切换。


不是Sondo突然降低了标准,是Mureka的输出质量远超过了生产线的及格线。AI生成的素材不用人工再过一道了,已经是音乐创作工作流的一环。


榜单成绩也在验证这个结论。今年3月,搭载MusiCoT框架的Mureka V8在Artificial Analysis Music Arena上拿下人声和器乐双榜第一,综合超越Suno、Udio、Google Lyria等一众主流竞品。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


随后,V9在外部音乐专家的主观盲评中,四个评测维度领先。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


如果把Mureka从V1到V9的演进串起来看,有一条不太被注意到的技术复利曲线:


  • 2024年2月,V1(SkyMusic):中国首发端到端音乐生成模型,验证技术路线能跑通;
  • 2025年3月,V6+O1:MusiCoT框架上线,首次达到SOTA;
  • 2026年1月,V8:面向真实创作场景的整体跃迁——从「能生成」到「能发布」;
  • 2026年3月,V9:从「能写出来」到「能按你想的方式写出来」。


从技术关键节点看,每一步都在推动同一件事情:让AI音乐变得可控、可信任、可量产。


生产力上手实测


为了验证这套作曲家大脑的能力,我盘了盘它!


首先,我试了下堪称“二创神器”的Remix功能,不仅能把已有歌曲混音成任意曲风,还支持改写歌词、切换风格和 AI 再创作。


我先用最近最洗脑的高难度歌曲《心愿便利贴》来试试,我传了歌词和原曲,让它remix成抒情钢琴为主的pop风格,真的很惊艳:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


做测评这么久,我一直都是给所有带着AI流水线味的作品打低分,但这版Remix不一样,值得我的一个高分。


因为这首歌本身就很难改,但是这个remix版本既保留了原有的甜甜的少女感,又有很强的情绪起伏,副歌旋律还特别抓耳。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


旋律走向和分词逻辑都很顺滑,完全没有那种廉价的生硬感,我循环听了好几遍。


趁热打铁,我又拿王心凌的《第一次爱的人》试了一把。


大家听听看,这改编能力确实有点东西:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


该改的地方改,该保留的保留,特别是在副歌的节奏上的处理,给了我一种耳目一新的创新感。


如果说以前的AI只是在拙劣模仿,缺乏灵性和创作理解;而现在的 Mureka,则真正开始展现出创作能力—它不仅理解原曲结构,还能用自己的方式去重新编排、赋予歌曲新的生命,每一个版本都有惊喜。


Mureka V9 最让我上头是它Studio 模式。


以前 AI 生成的音乐像个一锅粥—人声、乐器全搅在一起,想后期修个音或者换个鼓太难了惹。


Studio 模式提供了一个可视化的多轨时间线,可以像专业制作人一样,控制 BPM、音量、音高,对音频进行分层叠加:


  • 想加料: 用 AI 单轨道生成,基于现有轨道一键补上人声或乐器,和谐叠加。
  • 想拆解:用 Stem Extract,把成品智能拆成独立音轨(人声、贝斯、鼓等),随时导出 MIDI 接入你的主力 DAW。
  • 想改词: 用局部编辑,选中片段直接改,不用全盘重来,衔接自然得像没改过一样。


它把原本复杂的 DAW 操作,变成了一种自然语言驱动直觉式的创作体验。


以前是“生成”,现在是真的在“做音乐”。


为了测评,我假装了一回音乐总监,开始搞音乐了!


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


我先是扔给它一段最基础的 Base 音轨,想试试它的单轨生成功力:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


结果它瞬间给我配上了一组严丝合缝的鼓点:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


把两者叠在一起听,融合感很绝和默契—不是简单的叠加,而是和谐的你一拍我一拍地演奏这感觉太自由了。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


接着,我玩了个更进阶的,给我的人声定制伴奏。


先让 Mureka 生成一段 Base 人声:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


然后我下达指令:“我要 crisp dembow beat, congas, claps(清晰的 Dembow 节奏、康加鼓、掌声)。”


生成的结果能听到每一个元素—无论是康加鼓的律动还是掌声的颗粒感,都精准地包裹着人声,声量、节奏、音调控制得恰到好处,完全不是那种喧宾夺主的合成感。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


既然能给伴奏配人声,那反过来呢?


我上传了一段我认为节拍快整体填词很难搞的伴奏,让它自己配人声。


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


然后他给我生成了人声歌曲,人声咬字、断句,甚至是情绪起伏,全都精准地踩在了节拍上:


AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?


它能基于某一轨道一键生成人声、伴奏或单一乐器,且与原始音频自然和谐地叠加,还支持外部样本上传,真正地达到了人机共创。


结语


说回开头的问题。


AI的供给侧为什么看起来成熟、实际上很脆弱。因为大部分AI产品的思路还停留在C端,做一个好玩的东西,让用户觉得好酷。


但是企业端要的是:稳定、可控、合规、有售后。


当 AI 不再是一个不可解释的黑盒,而是能够被拆解、被微调、被控制的工业单元时,它才算真正拿到了生产力的入场券。 从 2024 年首发端到端模型,到 MusiCoT 框架,再到现在的 V9,Mureka 这一路其实只在做一件事跨越鸿沟。


这条鸿沟的一边是实验室里的随机奇观,另一边是工业界的确定性产能。


据报道,全球已经有8000多家企业接入Mureka ,包括短视频内容、AI创作工具、数字素材市场、视频制作等应用场景。


B端采购是最理性的决策。不存在冲动消费,不存在为信仰充值。一家企业愿意消费,只有一个原因,算过账,划算。


这才是AI音乐真正的分水岭—模型的输出质量能跨过「生成即可用」这条线。


文章来自于"夕小瑶科技说",作者 "夕小瑶编辑部"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner