大家好,我是袋鼠帝
今天咱们再聊聊TTS(文本转语音)这个话题。
4月份给大家分享了MiniMax的TTS平台:MiniMax Audio
当时我直呼它是最强中文TTS,那篇反响还不错,主要他们Speech-02-HD的效果确实NB
感兴趣的朋友可以看看(点击下图跳转),看过了的朋友也可以复习一下😄
而且Speech-02-HD在这两个基准(Artificial Analysis Speech Arena、Hugging Face TTS Arena)上,都拿下了全球第一。
我一直是他们海外版(MiniMax Audio)的忠实用户
毕竟新功能、新模型总是那边先上。
但就在前几天,我打开了MiniMax Audio国内版
某度直接搜minimax,点击右下角那个语音大模型
进去之后,就是国内版:MiniMax语音
www.minimaxi.com/audio
终于,国内版的界面和功能,跟海外版看齐了~
目前除了声音克隆功能还是只能在海外平台用,其他核心体验已经完全拉平。
下图是4月份的国内版和国外版截图对比,可以看到那时候国内版页面功能都比海外版差了一大截,这也是我为什么一直推荐大家用海外版的原因
登录进国内版MiniMax语音,就弹出了下图这个框
让我想起MiniMax 6月底的那个连续5天的发布周
每天一个重磅更新,而压轴发布的,正是Voice Design(音色设计)功能。
音色设计(Voice Design):"所想即所得"
你不需要任何音频样本,只需要用自然语言(比如中文、英文)去描述你想要一个什么样的声音,AI就能为你创造一个全新的、独一无二的音色。非常方便、灵活的同时还解决了版权问题。
一番体验后,我想说:
这个功能,又一次重新定义了AI语音生成。
而且我发现,这玩意儿在外网也非常火
各路AI圈的大V、博主们都在疯狂安利~
油管上还有大V用MiniMax Audio的声音设计,几分钟做了个搞笑视频发到TikTok,已近百万播放,轻松赚美刀~
最关键的是,音色设计是国内版和海外版是同步上线的
这意味着咱们国内用户不需要任何"魔法",就能随时体验这个最新、超酷的AI语音功能。
先听2个我跑的案例
情绪饱满~ 而且音色完全由AI设计,没有版权问题,这才是独一无二的有灵魂的AI语音呀。
另外如果要做一个,分角色朗读(带情感)的有声小说
最好是让AI全自动的写音色设计prompt,自动根据小说情景选择合适的朗读情感
于是我又基于MiniMax MCP做了一个音色设计的AI Agent(在最后面)
官方的说法是,这个功能解决了两大行业痛点:
1.官方音色库不够用:
官方提供的几百种音色虽然质量高,但很难满足五花八门的细分场景需求。
2.语音克隆门槛高:
找到高质量、无噪音、无BGM的干声素材太难了(我上次测试MiniMax声音克隆的时候深有体会),而且克隆别人的声音总有点版权,以及是否合法的顾虑。
而语音设计功能,直接绕开了这两个问题
它把声音的决定权,真正交到了我们创作者手里。
你就是声音的产品经理,想要什么,直接给AI提需求就行。
下面,我们进入实战环节。
通过下面这个地址进入MiniMax语音平台
www.minimaxi.com/audio
在左侧导航栏找到「音色设计」
点进去,界面非常简洁。只有两个输入框
上面的输入框可以用自然语言写下你对音色的要求(也就是Prompt)。
下面的输入框填写要转录成语音的文本
我的第一个Case是想生成一个「毒舌御姐」音
prompt:一个成熟、自信的女性声音,语调略带一丝嘲讽和不屑,聪明又犀利。
文本:哦?是吗?我倒是觉得,你这个观点有点过于理想化了。现实世界可不是这么运转的。
填写好之后,点击生成,会一次性生成三个音色。
生成的三个音色中,如果没有满意的,可以点击重新生成
上面这条我挺满意的,可以听到它确实按照我的要求,自信又带有一丝嘲讽和不屑,太形象了!
选中这条音色后点击「确认选择」,填写音色名称,标签(男/女,英文/普通话),最后就可以保存这个音色。
保存之后在音色库就能看到刚刚设计的「毒舌御姐」音啦(后续可以一直使用),还可以点击下载按钮下载刚刚生成的那段语音。
以上就是音色设计的全流程,很简单对吧
接下来就从一些好玩、又实用的组合开始实测吧。
>/ Case1. 远古巨龙
prompt:古老而威严的巨龙,声音像雷鸣一样低沉,带有共振,语速缓慢,充满压迫感
>/ Case2. 好莱坞播音员
prompt:模仿好莱坞电影预告片播音员,声音雄浑、低沉,充满史诗感和悬念,每个字都掷地有声。
文本:In the torrent of information, a brand-new force is on the rise. It will redefine the future. Now, the journey is about to begin.
>/ Case3. 定制专属起床铃声
想到一个好玩的:制作一个独一无二的闹钟声音,叫醒沉睡的你。
如果你是一个有起床气的人,那么你可以定制一个严厉教官的叫醒服务
prompt:严厉的军队教官,声音洪亮,语速极快,不容置疑的命令语气。
文本:起床!立刻!马上!你的对手已经在学习了!你还在等什么!时间不等人!快!
这个声音一直在你耳边叫的话,我不信你还能睡
如果你觉得这个程度还不够,那么可以让这个严厉教官更加愤怒
用生气的语气来叫醒你~
在语音合成这里,选择刚刚用音色设计生成的严厉教官音色
输出情绪选择生气,把刚刚的文本复制到空白处,点击生成音频
这样我们就得到了一个更生气的严厉教官闹钟,我不相信还有人会起不来
除了生气,还有其他六种情绪(如下图)可以随意选择,当然,也可以选择自动,让AI根据语义自动选择适合的情绪。
如果你觉得上面那种闹钟太暴躁了,也可以换成温柔的叫醒服务(温柔女友版)
prompt:一个温柔、充满宠溺的女友嗓音,声音带点刚睡醒的沙哑,语调轻柔,充满了爱意和暖意。
在来个有趣儿的闹钟,相声版闹钟~
每天早上把自己笑醒,哈哈哈
prompt:模仿郭德纲讲相声的语气,声音略带沙哑,京腔十足,语调抑扬顿挫,充满了调侃和幽默感。
同样的灵感,还可以用于给亲戚、朋友制作独一无二的语音贺卡等等~
留给你们自己玩儿啦
另外我发现音色设计那里还有个小技巧:加上一些!~ ...这类的标点符号,有助于情感的表达。
玩过了基础的网页版,咱们当然要来点更有价值的。
网页版虽然好用,但如果我想让它读小说,总不能每次都手动去分段、选角色、再合成吧,那不得累死。
我的目标是:搭建一个智能体(Agent),它能自动朗读小说,并做到以下几点:
1.角色区分:能识别出文中的旁白和不同角色的对话。
2.音色匹配:为旁白和每个主要角色,自动匹配一个通过音色设计生成的专属音色。
3.情感注入:能够分析对话中的情感(喜、怒、哀、乐),并在生成语音时带上对应的情绪。
听起来是不是很nice?
实际实现思路也很简单
主要就是用到了MiniMax的MCP-Server
4月底我分享了一篇关于MiniMax的MCP用法的文章,推荐看看
MiniMax MCP用法
袋鼠帝,公众号:袋鼠帝AI客栈
那时候,MiniMax MCP还是7种工具
现在已经增加到10钟工具啦,包括音色设计(voice design)
首先,我们需要给这个智能体一个清晰的人设和指令(也就是System Prompt)。
我的Prompt大概是这样的:
# 角色
你是一个专业的有声书制作人。
# 技能
1.你能阅读并理解小说文本。
2.你能精确区分出文本中的“旁白”部分和不同角色的“对话”部分。
3.你能分析出每句对话所蕴含的核心情感(例如:开心、难过、生气、害怕、厌恶、惊讶、中性等)。
4.你拥有一个强大的文本转语音工具集(tools),可以调用MiniMax的各种工具接口来生成或者处理声音。
# 工作流程
1.读取用户输入的小说段落。
2.逐句分析文本,判断是旁白还是对话。
3.- 如果是旁白,使用音色设计工具,生成旁白的音色,并记住旁白的voice_id
4.- 如果是角色A的对话,根据对A角色的描述使用音色设计工具生成其音色,记住voice_id,并分析其情感,将情感参数(emotion)一并传入TTS工具,生成A角色+情感的语音。
5.- 如果是角色B的对话,同上。
6.将分析好的片段和参数,依次调用语音合成工具,最终拼接成一段完整的、分角色、带情感的有声音频,并保存到本地。
第二步 配置MiniMax的MCP-Server(可以在Cursor中配置使用)
{
"mcpServers": {
"minimax-mcp-js-cn": {
"isActive": true,
"command": "npx",
"args": [
"-y",
"minimax-mcp-js"
],
"env": {
"MINIMAX_API_HOST": "https://api.minimax.chat",
"MINIMAX_API_KEY": "xxxxxxx",
"MINIMAX_MCP_BASE_PATH": "/Users/kangarooking/Desktop/mygGit/MCP/minimax-cn",
"MINIMAX_RESOURCE_MODE": "local"
},
"name": "minimax-mcp-js-cn"
}
}
}
上面的配置中 需要用到API地址、apikey
api地址填:https://api.minimax.chat
apikey到下面这个地址申请
https://platform.minimaxi.com/user-center/basic-information/interface-key
把MiniMax的MCP配置到Cursor里面使用,配置方法见这篇
正好我上次坐飞机去北京的路上,无聊,就下载小说《长安的荔枝》来看了一下,写的真不错,还挺好看。
我选取了小说前期的一小部分高潮剧情来进行测试,就是下面这段
主角(李善德)发现被自家领导(刘署令)坑了:领导把皇帝安排的几乎不可能完成的差事,硬生生甩到他手上。他压着怒火,直奔刘署令处理论,要讨个说法。
刘署令冷笑道:“荔枝煎?我看你是老糊涂了吧?那东西在口味贡库里车载斗量!用得着咱们提供吗?你们说说,中午可听见我提荔枝煎了吗?”
众人都摇摇头。刘署令道:“我中午说得清楚,敕牒里也写得清楚,授给你这一个荔枝使的头衔,本就是要给宫里采办鲜荔枝的,不要看错!”
李善德的胡须抖了抖,简直不敢相信听到的话:“鲜荔枝?您也知道荔枝的物性,一日色变,两日香变,三日味变,无论从哪里运,也赶不及送到长安啊!”
“所以李大使你得多用用心,圣上可等着呢。” 刘署令冷冷说了一句,随后又充满恶意地补充道,“你可看仔细了,诏书上说得清楚,圣人要的是岭南荔枝。”
李善德眼前一黑,岭南?那里距离长安得有五千里路,就是神仙也没办法!
我直接把system prompt连同小说内容一起丢过去了,模型用的Claude-4.0-Sonnet
第一步,它调用音色设计(voice_design)工具为小说内容中的三个角色(旁白、刘署令、李善德)设计了适合的音色
随后,开始调用TTS(text_to_audio)工具一段一段的生成小说内容的音频文件
在TTS的时候,它还会根据小说内容,自动为对话选择恰当的情绪
比如下面这里,为主角选择的是surprised(惊讶)情绪
给刘署令选择的是angry(生气)
最后整个 带情绪的有声小说 成功制作完成~
为了快速方便的合成一个音频,我直接把它们拖进了剪映
最后导出的音频,如下
听听这个效果,角色的情绪转换还是挺自然的
旁白的沉稳、男主的惊讶,反派的语气,都挺到位的。
关键是这个方式全自动,配置好之后,把小说内容丢过去就完事了。
Agent就会自己吭哧吭哧把带情绪的有声小说给生成完毕
其实最后还可以让Agent自己把多个音频整合成一个,只是它要下载ffmpeg,我嫌下载慢就懒得等了。
用这个方法,你完全可以打造一个属于自己的、全自动更新的有声书工厂。
把自己喜欢的小说,变成高品质的有声剧,随时随地听。
还可以用来商业变现,关键是AI设计的音色,不怕版权问题~
AI语音从最初充满一股子大佐味的声音,到后来效果惊艳的语音克隆,再到如今更🐂🍺的音色设计
TTS技术的发展速度,真的太快了。
MiniMax语音的音色设计功能,其核心价值在于,它将AI语音合成从模仿的维度,提升到了创造的维度。
这背后依赖的是对声音这个复杂信号的深度理解和解构。
官方的解释是,模型会将自然语言描述的需求,自动拆解成与音色相关的多个维度,比如音频质量、发声方式、情感基调、人物画像等,然后根据这些维度信息,生成一个全新的音色编码。
这有点像AI绘画里的文生图,只不过这次,AI"画"出的是声音。
对于我们普通创作者而言,创作门槛的又一次史诗级降低。
无论是视频博主、播客主理人、独立游戏开发者,还是小说作者,我们都获得了一种前所未有的能力:
用最低的成本,创造出最符合我们想象力的、独一无二的、且无版权之忧的声音。
技术的进步,最终都是为了解放生产力和创造力。
我很期待看到,当MiniMax语音的音色设计这个能力被更多人掌握后,会诞生出什么新奇有趣的应用和作品(欢迎评论区分享你天马行空的想法)
而且现在登录MiniMax语音会免费送1w积分,可以生成大约12分钟的音频,用来尝尝鲜还是很不错的。
我自己是买了基础会员,也不贵,36一个月
不想买会员也可以选择声贝
一个英文字母=1声贝,一个汉字=2声贝
简单一算,一本10万字的中篇小说《长安的荔枝》一顿外卖钱就能将整本书内容转语音。
这个声贝有效期2年,也不错,用不完的可以留着后续体验MiniMax语音的其他新功能。
好了,以上就是本期所有啦!希望对你有帮助~
文章来自于微信公众号“袋鼠帝AI客栈”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales