AI 唱中文歌,终于不怪了!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI 唱中文歌,终于不怪了!
5797点击    2025-08-15 10:41

就在刚刚,昆仑万维发布了 Mureka V7.5,一个专门为中文升级的音乐大模型。


AI 唱中文歌,终于不怪了!


老实说,这两年 AI 做音乐已经卷出了天际——Suno、Udio、Riffusion,一个比一个能唱,特别是英文歌,人声真假难辨,节奏旋律也都挑不出太大毛病。


所以当我看到 Mureka 这个更新的时候,原本也没太在意。直到我注意到一件事:


和很多模型强调“多语言支持”“风格多样化”不同,Mureka 这次反而把重点放在了「中文音乐表现」这件事上。


这一下我就来了兴趣。这或许是第一次,有人真的把「中文歌」放在了舞台中央,作为一个目标去打磨。


实测:听起来到底怎么样?


光有情怀可不行,我们上手实测一下看看实力。


老规矩先放网址:


https://www.mureka.ai(需要魔法)


打开「创作音乐」页面,中间栏会看到有三种生成模式:「简单」、「高级」、「音频编辑」


它们的区别大概可以这样理解:


  • 简单模式,适合第一次用 AI 写歌的人。你可以像和朋友聊天一样,把创作想法用自然语言说出来,比如“我想写一首温柔又有点心酸的民谣”,或者“想模仿周杰伦的《晴天》”。它就能自动理解你说的情绪、题材、参考风格,帮你完成整首歌。


  • 高级模式,更像是给“熟练创作者”的 Playground。你可以精细控制歌词结构、段落内容,还能选择参考歌曲、指定演唱人声、限制歌曲风格……就像你在和一个专业制作人配合,构建你想要的音乐世界。


  • 音频编辑,是整个工具链里最像“DAW(数字音频工作站)”的部分。它目前支持:乐句级别的重新生成延长歌曲时长乐器分轨精确裁剪。非常适合已经生成完成但还想再精修的音乐人。


为了给大家做一个完整的演示,我这里选择的是高级模式。


生成流程也很简单,跟官方的三步法基本一致:


  • 第一步,写歌词。你可以直接粘贴自己写的,也可以用系统自动生成一份草稿再修改。


  • 第二步,选择风格,可以搭配你想要的情绪关键词,也可以上传一段旋律或参考音频作为提示。


  • 第三步,点击“创作”按钮,然后稍等几分钟,你的歌就会生成。


AI 唱中文歌,终于不怪了!


来说几个我们实测时印象最深的 case。


比如说,民谣。


我们写了首《凌晨两点的火车站》,送给那些提着行李、还没想好下一站的人。旋律轻快得像夜风掠过站台,歌词一开口就带点温度。我们把它丢进市面上能找到的 AI 唱歌模型里来回试,最后还是这版听着最像深夜有个人在给你清唱。


AI 唱中文歌,终于不怪了!


AI 唱中文歌,终于不怪了!


而换成 R&B,整首歌的氛围立马变了。


AI 唱中文歌,终于不怪了!


AI 唱中文歌,终于不怪了!


好甜,听着歌感觉自己已经恋爱了。


再切到摇滚,前奏电吉他直接炸开,整个编曲冲得很猛,人声情绪也激烈许多。


AI 唱中文歌,终于不怪了!


为什么它唱得不“AI”?


说真的,整体的输出结果超出我的预期。我专门去翻了下他的技术报告。


这张图,是四个主流模型在「中文歌曲」生成场景下的主观测评分数。统一输入歌词和提示,每个模型各出四首歌,听众盲听投票。


AI 唱中文歌,终于不怪了!


Mureka V7.5 在两个维度都拿下第一:


  • 歌曲质量(Song Quality)得票:34.8%,高于 Suno(27.0%)和 Riffusion(28.9%);


  • 提示契合度(Prompt Follow)得票:45.2%,远高于 Suno(27.0%)、Udio(15.9%)。


这是目前唯一一个能在「旋律打动人」和「内容贴合主题」两个方面同时拉开差距的模型。


那它为什么能做到?


因为 Mureka V7.5 在底层做了三件事:


  • 第一,他们在构建模型时并不把音乐当成纯粹的音符序列,而是把它放回了文化语境和语言风格中去理解。整个模型架构围绕中文语境重新训练,从传统民歌、戏曲,到流行金曲和民谣,系统性地捕捉了中文音乐的语义结构和情感走向。


  • 第二,在演唱层面,他们引入了一个关键技术:ASR 技术反向建模。


  • 本质上,是通过对大量真实中文演唱数据的识别和分析,让模型“知道”哪一句该换气,哪一句该断句,哪一段要往后拖一点,甚至模仿真实歌手的唱法细节,比如气音、顿挫、连读、转音。这让 Mureka 生成出来的歌,不只是音色像,而是唱法、节奏、气感都接近真人演唱逻辑。


  • 第三,它把“听起来像人唱”这件事变成了训练目标之一。


  • 它在模型优化过程中引入了人类主观听感评分机制:不是机器评估“生成质量”,而是人来评“像不像人唱”。这使得模型会主动规避那些容易暴露 AI 痕迹的音色特征和情绪处理方式。


我们拿 Suno V4.5 和 Mureka V7.5 对比一下你就懂了。


AI 唱中文歌,终于不怪了!


你听到的自然,是因为它懂得“适可而止”,知道什么时候要留白,什么时候不用炫技。


MoE-TTS,让声音真正听命于语言


在 Mureka V7.5 的发布里,除了音乐模型本身,昆仑万维还同步发布了一个重要的语音合成技术:MoE-TTS(Mixture-of-Experts Text-to-Speech)。


而它非常重要。可以说,MoE-TTS 是支撑 Mureka V7.5 能唱出“更像人”的关键语音底座之一。


MoE-TTS 的最大创新在于,它将语音控制从传统的标签式模板(如情感=高兴、年龄=青年)彻底解放,转向了开放式自然语言建模。用户不再需要在预设参数里选择,而是可以直接用日常语言来描述目标声音,比如“清澈的少年音带磁性尾韵”这类复杂的、多维度的感知描述。


这背后,是一个由大语言模型(LLM)驱动的语义解析系统。它能够将自然语言拆解为一组高维表达向量,交由多个语音专家模块(Speech Expert Modules)分别建模语音风格、节奏、语气、发音等维度,并最终通过模态路由器(Modality Router)动态聚合输出结果,实现了真正意义上的“按语言思维驱动声音表现”。


从评测结果来看,MoE-TTS 在两类任务上都表现出显著优势:


AI 唱中文歌,终于不怪了!


  • In-domain 场景下(用户输入的描述语句来自训练语料相似分布),MoE-TTS 与 ElevenLabs、MiniMax 相比,在风格贴合度(SEA)、语音质量(SQ)等核心指标上均保持领先,整体评分几乎稳定在 4 分以上。


  • Out-of-domain 场景下(输入的语义描述从未在训练集中出现过,如比喻、隐喻、复合角色设定等),MoE-TTS 的泛化能力则更为突出,能更好还原语义意图与风格细节。


我们可以拿一个 demo 更直观地感受一下:


prompt:美国男演员,带有纽约口音,多才多艺,表达能力强,语速富有活力,充满魅力与感染力,吸引着听众的注意


Mureka V7.5:


AI 唱中文歌,终于不怪了!


不仅实现了美式口音的模拟,语调起伏和节奏变化也精准贴合“吸引听众”这一目标语义。


11labs:


AI 唱中文歌,终于不怪了!


音色平淡,缺乏应有的节奏张力。


MiniMax:


AI 唱中文歌,终于不怪了!


未展现出“个性表达”的能力,缺乏对 prompt 的风格理解。


技术架构上,MoE-TTS 抛弃了传统“一锅炖”式的统一建模逻辑,改为文本与语音解耦 + 多专家并行建模策略。在 Transformer 框架下,各语音专家独立聚焦不同表达维度,参数分别优化,避免模态间互相干扰,显著提升了对模糊、比喻、情绪迁移等复杂语言的理解力。


而且,这种“冻结文本语义 + 多路语音专家”的结构还带来了一个重要收益 —— 语义保持能力更强。模型在微调过程中不会破坏原有的语言表示,从而实现跨模态语义迁移时的“知识零损失”,这是传统 TTS 系统很难做到的。


MoE-TTS 并非孤立成果,而是昆仑万维在「SkyWork AI 技术发布周」上的压轴一作,也是一整套多模态技术体系的收官拼图。


技术之外,MoE-TTS 真正打开的是一片应用空间。它不仅服务于 Mureka 的音乐生成,也天然适配以下这些典型场景:


  • 情绪播报(比如哀伤语气播读新闻讣告)


  • 个性化阅读(为不同角色定制声音风格)


  • AI 对话角色建模(同一个语义,不同身份说法截然不同)


  • 影视配音 / 游戏语音包(可写即合成,按剧情语义变声)


  • 无障碍阅读(定制特定情绪、性别、年龄的朗读音)


Mureka O1 模型与 Mureka V6 模型自 3 月底发布以来,收获了全球用户的广泛好评,新增注册用户近 300 万。


自 8 月 11 日起,他们连续五天推出涵盖视频生成(SkyReels-A3)、世界模拟(Matrix-Game 2.0)、统一多模态模型(Skywork UniPic 2.0)、智能体(Deep Research Agent v2)等关键方向的模型成果,持续推进具备生成、理解与交互能力的多模态架构,同时延续了一贯强调研发开放性与协作共享的技术理念。


说到底,MoE-TTS 并不是为了好听而好听。它更像是昆仑万维在做中文音乐这件事上的一个底层工程。


因为你只要认真做一首中文歌就会发现——光有旋律没用,AI 唱得再准、节奏再对,如果咬字不地道、语气不到位、情绪不贴脸,那首歌听起来就是“有点怪”。


而这个“怪”,不是靠调节 EQ 或增加混响能解决的,它是语言与文化之间天然的隔阂。


AI 在大多数赛道卷的是“效率”“准确率”“生成力”。但音乐赛道不一样,它卷的是“谁的文化留下来”。


如果没有人愿意为中文音乐单独修一条路,那么在未来的 AI 世界里,我们可能连一首像样的歌都没有资格被记住。


这一次,Mureka V7.5 是在拉着中文音乐往前站了一步。它没有去迎合所有语言、风格、市场,而是选择把注意力,扎扎实实地放在了中文音乐身上。


你能听见它唱得越来越像我们。那不是因为模型聪明了,而是因为,终于有一群人,在算力之外,愿意花时间、花心思,把中文的旋律、情绪、韵脚和呼吸,一点点教给 AI。


有些旋律,真的只有中文能唱。


也许,有些歌,AI 也该学会,闭上眼睛去唱


文章来自于微信公众号“夕小瑶科技说”,作者是“夕小瑶编辑部”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales