最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

13365点击 2025-07-11 11:44

大家好，我是袋鼠帝

今天咱们再聊聊TTS（文本转语音）这个话题。

4月份给大家分享了MiniMax的TTS平台：MiniMax Audio

当时我直呼它是最强中文TTS，那篇反响还不错，主要他们Speech-02-HD的效果确实NB

感兴趣的朋友可以看看（点击下图跳转），看过了的朋友也可以复习一下😄

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

而且Speech-02-HD在这两个基准（Artificial Analysis Speech Arena、Hugging Face TTS Arena）上，都拿下了全球第一。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

我一直是他们海外版（MiniMax Audio）的忠实用户

毕竟新功能、新模型总是那边先上。

但就在前几天，我打开了MiniMax Audio国内版

某度直接搜minimax，点击右下角那个语音大模型

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

进去之后，就是国内版：MiniMax语音

www.minimaxi.com/audio

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

终于，国内版的界面和功能，跟海外版看齐了～

目前除了声音克隆功能还是只能在海外平台用，其他核心体验已经完全拉平。

下图是4月份的国内版和国外版截图对比，可以看到那时候国内版页面功能都比海外版差了一大截，这也是我为什么一直推荐大家用海外版的原因

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

登录进国内版MiniMax语音，就弹出了下图这个框

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

让我想起MiniMax 6月底的那个连续5天的发布周

每天一个重磅更新，而压轴发布的，正是Voice Design（音色设计）功能。

音色设计（Voice Design）："所想即所得"

你不需要任何音频样本，只需要用自然语言（比如中文、英文）去描述你想要一个什么样的声音，AI就能为你创造一个全新的、独一无二的音色。非常方便、灵活的同时还解决了版权问题。

一番体验后，我想说：

这个功能，又一次重新定义了AI语音生成。

而且我发现，这玩意儿在外网也非常火

各路AI圈的大V、博主们都在疯狂安利～

油管上还有大V用MiniMax Audio的声音设计，几分钟做了个搞笑视频发到TikTok，已近百万播放，轻松赚美刀～

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

最关键的是，音色设计是国内版和海外版是同步上线的

这意味着咱们国内用户不需要任何"魔法"，就能随时体验这个最新、超酷的AI语音功能。

先听2个我跑的案例

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

情绪饱满～而且音色完全由AI设计，没有版权问题，这才是独一无二的有灵魂的AI语音呀。

另外如果要做一个，分角色朗读（带情感）的有声小说

最好是让AI全自动的写音色设计prompt，自动根据小说情景选择合适的朗读情感

于是我又基于MiniMax MCP做了一个音色设计的AI Agent（在最后面）

一、实测音色设计功能

官方的说法是，这个功能解决了两大行业痛点：

1.官方音色库不够用：

官方提供的几百种音色虽然质量高，但很难满足五花八门的细分场景需求。

2.语音克隆门槛高：

找到高质量、无噪音、无BGM的干声素材太难了（我上次测试MiniMax声音克隆的时候深有体会），而且克隆别人的声音总有点版权，以及是否合法的顾虑。

而语音设计功能，直接绕开了这两个问题

它把声音的决定权，真正交到了我们创作者手里。

你就是声音的产品经理，想要什么，直接给AI提需求就行。

下面，我们进入实战环节。

通过下面这个地址进入MiniMax语音平台

www.minimaxi.com/audio

在左侧导航栏找到「音色设计」

点进去，界面非常简洁。只有两个输入框

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

上面的输入框可以用自然语言写下你对音色的要求（也就是Prompt）。

下面的输入框填写要转录成语音的文本

我的第一个Case是想生成一个「毒舌御姐」音

prompt：一个成熟、自信的女性声音，语调略带一丝嘲讽和不屑，聪明又犀利。

文本：哦？是吗？我倒是觉得，你这个观点有点过于理想化了。现实世界可不是这么运转的。

填写好之后，点击生成，会一次性生成三个音色。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

生成的三个音色中，如果没有满意的，可以点击重新生成

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

上面这条我挺满意的，可以听到它确实按照我的要求，自信又带有一丝嘲讽和不屑，太形象了！

选中这条音色后点击「确认选择」，填写音色名称，标签（男/女，英文/普通话），最后就可以保存这个音色。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

保存之后在音色库就能看到刚刚设计的「毒舌御姐」音啦（后续可以一直使用），还可以点击下载按钮下载刚刚生成的那段语音。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

以上就是音色设计的全流程，很简单对吧

接下来就从一些好玩、又实用的组合开始实测吧。

>/ Case1. 远古巨龙

prompt：古老而威严的巨龙，声音像雷鸣一样低沉，带有共振，语速缓慢，充满压迫感

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

>/ Case2. 好莱坞播音员

prompt：模仿好莱坞电影预告片播音员，声音雄浑、低沉，充满史诗感和悬念，每个字都掷地有声。

文本：In the torrent of information, a brand-new force is on the rise. It will redefine the future. Now, the journey is about to begin.

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

>/ Case3. 定制专属起床铃声

想到一个好玩的：制作一个独一无二的闹钟声音，叫醒沉睡的你。

如果你是一个有起床气的人，那么你可以定制一个严厉教官的叫醒服务

prompt：严厉的军队教官，声音洪亮，语速极快，不容置疑的命令语气。

文本：起床！立刻！马上！你的对手已经在学习了！你还在等什么！时间不等人！快！

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

这个声音一直在你耳边叫的话，我不信你还能睡

如果你觉得这个程度还不够，那么可以让这个严厉教官更加愤怒

用生气的语气来叫醒你～

在语音合成这里，选择刚刚用音色设计生成的严厉教官音色

输出情绪选择生气，把刚刚的文本复制到空白处，点击生成音频

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

这样我们就得到了一个更生气的严厉教官闹钟，我不相信还有人会起不来

除了生气，还有其他六种情绪（如下图）可以随意选择，当然，也可以选择自动，让AI根据语义自动选择适合的情绪。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

如果你觉得上面那种闹钟太暴躁了，也可以换成温柔的叫醒服务（温柔女友版）

prompt：一个温柔、充满宠溺的女友嗓音，声音带点刚睡醒的沙哑，语调轻柔，充满了爱意和暖意。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

在来个有趣儿的闹钟，相声版闹钟～

每天早上把自己笑醒，哈哈哈

prompt：模仿郭德纲讲相声的语气，声音略带沙哑，京腔十足，语调抑扬顿挫，充满了调侃和幽默感。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

同样的灵感，还可以用于给亲戚、朋友制作独一无二的语音贺卡等等～

留给你们自己玩儿啦

另外我发现音色设计那里还有个小技巧：加上一些！～ ...这类的标点符号，有助于情感的表达。

二、分角色带情感的有声小说朗读Agent

玩过了基础的网页版，咱们当然要来点更有价值的。

网页版虽然好用，但如果我想让它读小说，总不能每次都手动去分段、选角色、再合成吧，那不得累死。

我的目标是：搭建一个智能体（Agent），它能自动朗读小说，并做到以下几点：

1.角色区分：能识别出文中的旁白和不同角色的对话。

2.音色匹配：为旁白和每个主要角色，自动匹配一个通过音色设计生成的专属音色。

3.情感注入：能够分析对话中的情感（喜、怒、哀、乐），并在生成语音时带上对应的情绪。

听起来是不是很nice？

实际实现思路也很简单

主要就是用到了MiniMax的MCP-Server

4月底我分享了一篇关于MiniMax的MCP用法的文章，推荐看看

MiniMax MCP用法

袋鼠帝，公众号：袋鼠帝AI客栈

最强中文TTS接入MCP-Server，效果再次封神！

那时候，MiniMax MCP还是7种工具

现在已经增加到10钟工具啦，包括音色设计（voice design）

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

首先，我们需要给这个智能体一个清晰的人设和指令（也就是System Prompt）。

我的Prompt大概是这样的：

# 角色

你是一个专业的有声书制作人。

# 技能

1.你能阅读并理解小说文本。

2.你能精确区分出文本中的“旁白”部分和不同角色的“对话”部分。

3.你能分析出每句对话所蕴含的核心情感（例如：开心、难过、生气、害怕、厌恶、惊讶、中性等）。

4.你拥有一个强大的文本转语音工具集(tools)，可以调用MiniMax的各种工具接口来生成或者处理声音。

# 工作流程

1.读取用户输入的小说段落。

2.逐句分析文本，判断是旁白还是对话。

3.- 如果是旁白，使用音色设计工具，生成旁白的音色，并记住旁白的voice_id

4.- 如果是角色A的对话，根据对A角色的描述使用音色设计工具生成其音色，记住voice_id，并分析其情感，将情感参数（emotion）一并传入TTS工具，生成A角色+情感的语音。

5.- 如果是角色B的对话，同上。

6.将分析好的片段和参数，依次调用语音合成工具，最终拼接成一段完整的、分角色、带情感的有声音频，并保存到本地。

第二步配置MiniMax的MCP-Server（可以在Cursor中配置使用）

{
  "mcpServers": {

    "minimax-mcp-js-cn": {

      "isActive": true,

      "command": "npx",

      "args": [

        "-y",

        "minimax-mcp-js"

      ],

      "env": {

        "MINIMAX_API_HOST": "https://api.minimax.chat",

        "MINIMAX_API_KEY": "xxxxxxx",

        "MINIMAX_MCP_BASE_PATH": "/Users/kangarooking/Desktop/mygGit/MCP/minimax-cn",

        "MINIMAX_RESOURCE_MODE": "local"

      },

      "name": "minimax-mcp-js-cn"

    }

  }
}

上面的配置中需要用到API地址、apikey

api地址填：https://api.minimax.chat

apikey到下面这个地址申请

https://platform.minimaxi.com/user-center/basic-information/interface-key

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

把MiniMax的MCP配置到Cursor里面使用，配置方法见这篇

正好我上次坐飞机去北京的路上，无聊，就下载小说《长安的荔枝》来看了一下，写的真不错，还挺好看。

我选取了小说前期的一小部分高潮剧情来进行测试，就是下面这段

主角（李善德）发现被自家领导（刘署令）坑了：领导把皇帝安排的几乎不可能完成的差事，硬生生甩到他手上。他压着怒火，直奔刘署令处理论，要讨个说法。

刘署令冷笑道：“荔枝煎？我看你是老糊涂了吧？那东西在口味贡库里车载斗量！用得着咱们提供吗？你们说说，中午可听见我提荔枝煎了吗？”

众人都摇摇头。刘署令道：“我中午说得清楚，敕牒里也写得清楚，授给你这一个荔枝使的头衔，本就是要给宫里采办鲜荔枝的，不要看错！”

李善德的胡须抖了抖，简直不敢相信听到的话：“鲜荔枝？您也知道荔枝的物性，一日色变，两日香变，三日味变，无论从哪里运，也赶不及送到长安啊！”

“所以李大使你得多用用心，圣上可等着呢。” 刘署令冷冷说了一句，随后又充满恶意地补充道，“你可看仔细了，诏书上说得清楚，圣人要的是岭南荔枝。”

李善德眼前一黑，岭南？那里距离长安得有五千里路，就是神仙也没办法！

我直接把system prompt连同小说内容一起丢过去了，模型用的Claude-4.0-Sonnet

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

第一步，它调用音色设计（voice_design）工具为小说内容中的三个角色（旁白、刘署令、李善德）设计了适合的音色

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

随后，开始调用TTS（text_to_audio）工具一段一段的生成小说内容的音频文件

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

在TTS的时候，它还会根据小说内容，自动为对话选择恰当的情绪

比如下面这里，为主角选择的是surprised（惊讶）情绪

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

给刘署令选择的是angry（生气）

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

最后整个 带情绪的有声小说 成功制作完成～

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

为了快速方便的合成一个音频，我直接把它们拖进了剪映

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

最后导出的音频，如下

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

听听这个效果，角色的情绪转换还是挺自然的

旁白的沉稳、男主的惊讶，反派的语气，都挺到位的。

关键是这个方式全自动，配置好之后，把小说内容丢过去就完事了。

Agent就会自己吭哧吭哧把带情绪的有声小说给生成完毕

其实最后还可以让Agent自己把多个音频整合成一个，只是它要下载ffmpeg，我嫌下载慢就懒得等了。

用这个方法，你完全可以打造一个属于自己的、全自动更新的有声书工厂。

把自己喜欢的小说，变成高品质的有声剧，随时随地听。

还可以用来商业变现，关键是AI设计的音色，不怕版权问题～

最后

AI语音从最初充满一股子大佐味的声音，到后来效果惊艳的语音克隆，再到如今更🐂🍺的音色设计

TTS技术的发展速度，真的太快了。

MiniMax语音的音色设计功能，其核心价值在于，它将AI语音合成从模仿的维度，提升到了创造的维度。

这背后依赖的是对声音这个复杂信号的深度理解和解构。

官方的解释是，模型会将自然语言描述的需求，自动拆解成与音色相关的多个维度，比如音频质量、发声方式、情感基调、人物画像等，然后根据这些维度信息，生成一个全新的音色编码。

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

这有点像AI绘画里的文生图，只不过这次，AI"画"出的是声音。

对于我们普通创作者而言，创作门槛的又一次史诗级降低。

无论是视频博主、播客主理人、独立游戏开发者，还是小说作者，我们都获得了一种前所未有的能力：

用最低的成本，创造出最符合我们想象力的、独一无二的、且无版权之忧的声音。

技术的进步，最终都是为了解放生产力和创造力。

我很期待看到，当MiniMax语音的音色设计这个能力被更多人掌握后，会诞生出什么新奇有趣的应用和作品（欢迎评论区分享你天马行空的想法）

而且现在登录MiniMax语音会免费送1w积分，可以生成大约12分钟的音频，用来尝尝鲜还是很不错的。

我自己是买了基础会员，也不贵，36一个月

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

不想买会员也可以选择声贝

一个英文字母=1声贝，一个汉字=2声贝

最强中文TTS！设计任何音色+情感注入，效果绝了～【附实操】

简单一算，一本10万字的中篇小说《长安的荔枝》一顿外卖钱就能将整本书内容转语音。

这个声贝有效期2年，也不错，用不完的可以留着后续体验MiniMax语音的其他新功能。

好了，以上就是本期所有啦！希望对你有帮助～

文章来自于微信公众号“袋鼠帝AI客栈”。

关键词: AI , TTS , MiniMax Audio , MiniMax

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址：https://github.com/babysor/MockingBird

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales