AI 唱中文歌，终于不怪了！

8424点击 2025-08-15 10:41

就在刚刚，昆仑万维发布了 Mureka V7.5，一个专门为中文升级的音乐大模型。

AI 唱中文歌，终于不怪了！

老实说，这两年 AI 做音乐已经卷出了天际——Suno、Udio、Riffusion，一个比一个能唱，特别是英文歌，人声真假难辨，节奏旋律也都挑不出太大毛病。

所以当我看到 Mureka 这个更新的时候，原本也没太在意。直到我注意到一件事：

和很多模型强调“多语言支持”“风格多样化”不同，Mureka 这次反而把重点放在了「中文音乐表现」这件事上。

这一下我就来了兴趣。这或许是第一次，有人真的把「中文歌」放在了舞台中央，作为一个目标去打磨。

实测：听起来到底怎么样？

光有情怀可不行，我们上手实测一下看看实力。

老规矩先放网址：

https://www.mureka.ai（需要魔法）

打开「创作音乐」页面，中间栏会看到有三种生成模式：「简单」、「高级」、「音频编辑」

它们的区别大概可以这样理解：

简单模式，适合第一次用 AI 写歌的人。你可以像和朋友聊天一样，把创作想法用自然语言说出来，比如“我想写一首温柔又有点心酸的民谣”，或者“想模仿周杰伦的《晴天》”。它就能自动理解你说的情绪、题材、参考风格，帮你完成整首歌。

高级模式，更像是给“熟练创作者”的 Playground。你可以精细控制歌词结构、段落内容，还能选择参考歌曲、指定演唱人声、限制歌曲风格……就像你在和一个专业制作人配合，构建你想要的音乐世界。

音频编辑，是整个工具链里最像“DAW（数字音频工作站）”的部分。它目前支持：乐句级别的重新生成、延长歌曲时长、乐器分轨、精确裁剪。非常适合已经生成完成但还想再精修的音乐人。

为了给大家做一个完整的演示，我这里选择的是高级模式。

生成流程也很简单，跟官方的三步法基本一致：

第一步，写歌词。你可以直接粘贴自己写的，也可以用系统自动生成一份草稿再修改。

第二步，选择风格，可以搭配你想要的情绪关键词，也可以上传一段旋律或参考音频作为提示。

第三步，点击“创作”按钮，然后稍等几分钟，你的歌就会生成。

AI 唱中文歌，终于不怪了！

来说几个我们实测时印象最深的 case。

比如说，民谣。

我们写了首《凌晨两点的火车站》，送给那些提着行李、还没想好下一站的人。旋律轻快得像夜风掠过站台，歌词一开口就带点温度。我们把它丢进市面上能找到的 AI 唱歌模型里来回试，最后还是这版听着最像深夜有个人在给你清唱。

AI 唱中文歌，终于不怪了！

而换成 R&B，整首歌的氛围立马变了。

AI 唱中文歌，终于不怪了！

好甜，听着歌感觉自己已经恋爱了。

再切到摇滚，前奏电吉他直接炸开，整个编曲冲得很猛，人声情绪也激烈许多。

AI 唱中文歌，终于不怪了！

为什么它唱得不“AI”？

说真的，整体的输出结果超出我的预期。我专门去翻了下他的技术报告。

这张图，是四个主流模型在「中文歌曲」生成场景下的主观测评分数。统一输入歌词和提示，每个模型各出四首歌，听众盲听投票。

AI 唱中文歌，终于不怪了！

Mureka V7.5 在两个维度都拿下第一：

歌曲质量（Song Quality）得票：34.8%，高于 Suno（27.0%）和 Riffusion（28.9%）；

提示契合度（Prompt Follow）得票：45.2%，远高于 Suno（27.0%）、Udio（15.9%）。

这是目前唯一一个能在「旋律打动人」和「内容贴合主题」两个方面同时拉开差距的模型。

那它为什么能做到？

因为 Mureka V7.5 在底层做了三件事：

第一，他们在构建模型时并不把音乐当成纯粹的音符序列，而是把它放回了文化语境和语言风格中去理解。整个模型架构围绕中文语境重新训练，从传统民歌、戏曲，到流行金曲和民谣，系统性地捕捉了中文音乐的语义结构和情感走向。

第二，在演唱层面，他们引入了一个关键技术：ASR 技术反向建模。

本质上，是通过对大量真实中文演唱数据的识别和分析，让模型“知道”哪一句该换气，哪一句该断句，哪一段要往后拖一点，甚至模仿真实歌手的唱法细节，比如气音、顿挫、连读、转音。这让 Mureka 生成出来的歌，不只是音色像，而是唱法、节奏、气感都接近真人演唱逻辑。

第三，它把“听起来像人唱”这件事变成了训练目标之一。

它在模型优化过程中引入了人类主观听感评分机制：不是机器评估“生成质量”，而是人来评“像不像人唱”。这使得模型会主动规避那些容易暴露 AI 痕迹的音色特征和情绪处理方式。

我们拿 Suno V4.5 和 Mureka V7.5 对比一下你就懂了。

AI 唱中文歌，终于不怪了！

你听到的自然，是因为它懂得“适可而止”，知道什么时候要留白，什么时候不用炫技。

MoE-TTS，让声音真正听命于语言

在 Mureka V7.5 的发布里，除了音乐模型本身，昆仑万维还同步发布了一个重要的语音合成技术：MoE-TTS（Mixture-of-Experts Text-to-Speech）。

而它非常重要。可以说，MoE-TTS 是支撑 Mureka V7.5 能唱出“更像人”的关键语音底座之一。

MoE-TTS 的最大创新在于，它将语音控制从传统的标签式模板（如情感=高兴、年龄=青年）彻底解放，转向了开放式自然语言建模。用户不再需要在预设参数里选择，而是可以直接用日常语言来描述目标声音，比如“清澈的少年音带磁性尾韵”这类复杂的、多维度的感知描述。

这背后，是一个由大语言模型（LLM）驱动的语义解析系统。它能够将自然语言拆解为一组高维表达向量，交由多个语音专家模块（Speech Expert Modules）分别建模语音风格、节奏、语气、发音等维度，并最终通过模态路由器（Modality Router）动态聚合输出结果，实现了真正意义上的“按语言思维驱动声音表现”。

从评测结果来看，MoE-TTS 在两类任务上都表现出显著优势：

AI 唱中文歌，终于不怪了！

In-domain 场景下（用户输入的描述语句来自训练语料相似分布），MoE-TTS 与 ElevenLabs、MiniMax 相比，在风格贴合度（SEA）、语音质量（SQ）等核心指标上均保持领先，整体评分几乎稳定在 4 分以上。

Out-of-domain 场景下（输入的语义描述从未在训练集中出现过，如比喻、隐喻、复合角色设定等），MoE-TTS 的泛化能力则更为突出，能更好还原语义意图与风格细节。

我们可以拿一个 demo 更直观地感受一下：

prompt：美国男演员，带有纽约口音，多才多艺，表达能力强，语速富有活力，充满魅力与感染力，吸引着听众的注意。

Mureka V7.5：

AI 唱中文歌，终于不怪了！

不仅实现了美式口音的模拟，语调起伏和节奏变化也精准贴合“吸引听众”这一目标语义。

11labs：

AI 唱中文歌，终于不怪了！

音色平淡，缺乏应有的节奏张力。

MiniMax：

AI 唱中文歌，终于不怪了！

未展现出“个性表达”的能力，缺乏对 prompt 的风格理解。

技术架构上，MoE-TTS 抛弃了传统“一锅炖”式的统一建模逻辑，改为文本与语音解耦 + 多专家并行建模策略。在 Transformer 框架下，各语音专家独立聚焦不同表达维度，参数分别优化，避免模态间互相干扰，显著提升了对模糊、比喻、情绪迁移等复杂语言的理解力。

而且，这种“冻结文本语义 + 多路语音专家”的结构还带来了一个重要收益 —— 语义保持能力更强。模型在微调过程中不会破坏原有的语言表示，从而实现跨模态语义迁移时的“知识零损失”，这是传统 TTS 系统很难做到的。

MoE-TTS 并非孤立成果，而是昆仑万维在「SkyWork AI 技术发布周」上的压轴一作，也是一整套多模态技术体系的收官拼图。

技术之外，MoE-TTS 真正打开的是一片应用空间。它不仅服务于 Mureka 的音乐生成，也天然适配以下这些典型场景：

情绪播报（比如哀伤语气播读新闻讣告）

个性化阅读（为不同角色定制声音风格）

AI 对话角色建模（同一个语义，不同身份说法截然不同）

影视配音 / 游戏语音包（可写即合成，按剧情语义变声）

无障碍阅读（定制特定情绪、性别、年龄的朗读音）

Mureka O1 模型与 Mureka V6 模型自 3 月底发布以来，收获了全球用户的广泛好评，新增注册用户近 300 万。

自 8 月 11 日起，他们连续五天推出涵盖视频生成（SkyReels-A3）、世界模拟（Matrix-Game 2.0）、统一多模态模型（Skywork UniPic 2.0）、智能体（Deep Research Agent v2）等关键方向的模型成果，持续推进具备生成、理解与交互能力的多模态架构，同时延续了一贯强调研发开放性与协作共享的技术理念。

说到底，MoE-TTS 并不是为了好听而好听。它更像是昆仑万维在做中文音乐这件事上的一个底层工程。

因为你只要认真做一首中文歌就会发现——光有旋律没用，AI 唱得再准、节奏再对，如果咬字不地道、语气不到位、情绪不贴脸，那首歌听起来就是“有点怪”。

而这个“怪”，不是靠调节 EQ 或增加混响能解决的，它是语言与文化之间天然的隔阂。

AI 在大多数赛道卷的是“效率”“准确率”“生成力”。但音乐赛道不一样，它卷的是“谁的文化留下来”。

如果没有人愿意为中文音乐单独修一条路，那么在未来的 AI 世界里，我们可能连一首像样的歌都没有资格被记住。

这一次，Mureka V7.5 是在拉着中文音乐往前站了一步。它没有去迎合所有语言、风格、市场，而是选择把注意力，扎扎实实地放在了中文音乐身上。

你能听见它唱得越来越像我们。那不是因为模型聪明了，而是因为，终于有一群人，在算力之外，愿意花时间、花心思，把中文的旋律、情绪、韵脚和呼吸，一点点教给 AI。

有些旋律，真的只有中文能唱。

也许，有些歌，AI 也该学会，闭上眼睛去唱

文章来自于微信公众号“夕小瑶科技说”，作者是“夕小瑶编辑部”。

关键词: AI新闻 , Mureka V7.5 , 音乐大模型 , 昆仑万维

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales