张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩
8263点击    2026-04-08 16:28

面壁智能2B小模型VoxCPM 2惊艳开源,一众外国网友疯狂了!30种语言与9大方言它是信手拈来,复刻的贺炜激昂解说与徐志胜脱口秀,相似度简直直击灵魂。这哪是工具,分明是降维打击的生产力核武器!


最近,这个AI直接让我们疯狂了!


事情是这样的。


我们写了段脱口秀,上传了一段徐志胜的录音,让AI用他的声音念出来。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


音频一出,编辑部安静了三秒,然后集体炸了。


那个山东味儿的换气声,那个冤种气质,连说到一半突然卡壳的停顿都一模一样。


但这真不是徐志胜。


干这事的叫VoxCPM 2,面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室开发的2B小模型,4月刚刚开源。


体验链接:

https://voxcpm.modelbest.cn/ 


GitHub开源链接:

https://github.com/OpenBMB/VoxCPM/ 


Hugging Face链接:

https://huggingface.openbmb.com/model/openbmb/VoxCPM2


而且,不只我们疯了。前天VoxCPM 2首发时,X推文的浏览量分分钟飙到30多万。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


官方放出的demo,直接把一众网友震了。


只见「硅谷钢铁侠」马斯克化身Q版数字人,周游了十几个国家。每到一个国家,他都用极度地道的当地语言,结合当地文化和自家公司疯狂吐槽。


在法国,他会用法语吐槽「8月份在这里等一封邮件,比殖民火星还难」;在意大利,他又用意大利语严正声明:「披萨上放菠萝,简直比炸毁一枚火箭还要罪恶」。


在中国,他用字正腔圆的中文感慨:「这里开源模型的发布频率,简直比我发射星链还要密集」;在泰国,他被辣到怀疑人生,「这木瓜沙拉辣得把我大脑都重启了,Neuralink赶紧记下来!」


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


评论区里,网友们疯狂夸赞说:VoxCPM 2又一次提高了开源TTS的标准,它可能会彻底改变我们创作音频的方式!


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


能接得住梗,只是VoxCPM 2的基本功而已。


它包含30种语言,9种方言,有48kHz的CD级音质。对于声音克隆、情绪控制,它样样能打,还有一招更绝的「音色设计」,能无中生有,凭空创造一种从未存在过的声音。


别家要好几个模型叠起来干的活,它一个全包。开源,免费,工具链全套附送。


这个AI真的不是来参加比赛的,而是直接把桌子都掀了!


五场实测,拆解AI语音能力上限


一段录音喂进去,贺炜直接复刻


音色克隆,是VoxCPM 2的一大杀手锏,属于人无我有的功能。它实现了业界领先的克隆相似度,真正做到了声临其境。


最近,所有人都被张雪机车的热血故事刷屏了。在WSBK葡萄牙站,张雪凭一己之力,干掉了杜卡迪川崎雅马哈,打破了欧日的百年垄断,一战封神!


那让我们试一试,模仿贺炜的解说风格,用激情澎湃、热泪盈眶、骄傲自豪的声音有节奏感、有停顿地解说下面这段话:


比赛结束了!冠军!张雪和他的国产机车,在葡萄牙,在WSBK的赛场上,创造了历史!


此时此刻,波尔蒂芒赛道的空气仿佛都凝固了。我们看到张雪机车的赛车手在最后一个弯道压低了身姿,那不是简单的倾斜,那是理想主义者在向地心引力发起的最后冲锋!


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


贺炜这直击灵魂深处的激昂怒吼,已经被一比一完美复刻,这穿透屏幕的声浪,让全世界都听到:中国智造,已经走到了世界巅峰。


一个字,绝。


方言一响,AI瞬间有了人味


AI说中文不奇怪,但它能说出那种带着大蒜味、火锅味、甚至腊汁肉夹馍味的家乡话吗?


VoxCPM 2支持9种中国方言,四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。光看名单没感觉,得听。


为了试出它的底牌,我们请出《武林外传》里的经典人物。


首先,我们先给模型喂了一段佟掌柜的经典台词。原本担心AI会把陕西方言念成「标准普通话带口音」,结果音频一出,全办公室都沉默了。


佟湘玉(陕西话): 「额错咧,额真滴错咧,额从一开始就不该嫁到这儿来……」


简直了,这个微微上扬的尾音,把那种风情万种又委屈巴巴的劲儿掐得死死的。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


山东方言里独特的重音位置和喜感,粤语里的文艺腔和江湖气,VoxCPM 2全接住了。


燕小六(山东话): 「给俺照看好俺七舅姥爷!」(帮我照顾好我七舅老爷)


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


无双(粤语):「有啲人天生血脉带风,注定一世都要漂泊。」 (有些人血里有风,注定是要漂泊的)


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


最后,再来几段有故事感的。


我们给VoxCPM 2下了一道指令,「闽南语,女性,语气又凶又心疼」,让它演一个叫孙子回来吃饭的闽南阿嬷。


死囡仔!叫你紧来食饭你就装无听着!菜拢冷去矣!你若阁无来,碗筷我就收起来,今仔暗你去食风就好!......好啦好啦,紧来坐,我共你留一碗鸡汤。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


闽南阿嬷管你吃饭,广东老师傅管你吃好。


我们让VoxCPM 2用粤语念了一段干炒牛河的旁白,控制指令只写了一句「像纪录片旁白,浑厚从容」。


一碟好嘅干炒牛河,镬气系灵魂。猛火烧镬,牛油落镬嘅一刻,成间厨房都系香味。河粉要炒到条条分明,牛肉要滑而唔韧。老师傅讲,干炒牛河唔系炒出嚟嘅,系「抛」出嚟嘅。


不紧不慢地讲述节奏,听完想立刻下楼找大排档。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


上海话也不甘示弱。


先来一段上海阿姨吐槽邻居装修,语速快、嗲中带刺,每个字都在翻白眼。


 侬晓得伐,阿拉隔壁邻居又开始装修了。礼拜六一大早就叮叮咚咚,我整个人困在床浪向,感觉自家屋里厢就像住在拆迁现场。我发消息过去讲,能不能轻一点?人家回我一句,「快了快了」。快了快了讲了三个号头了!


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


同样是上海话,这次换成低沉威严的中年男声,像老克勒靠在沙发上跟晚辈讲规矩。


 我信过交情,也吃过生活。到如今我想通了,这个世界浪向,第一桩事体就是勿要让别人晓得侬心里厢到底想啥。侬今朝来寻我,我帮侬这个忙,但是将来总有一日,我要侬帮我做一桩事体。这桩事体,侬勿好推脱。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


同一种方言,一个嗲到骨头酥,一个冷到脊背凉。VoxCPM 2的驾驭,已经不是「能说」的问题了,是「能演」。


为什么效果这么好?因为模型抓住了方言里的语气词、顿挫感和情绪颗粒度,方言不再是几种发音规律的组合,而是一种情感的复刻。


对于自媒体短视频、文化出海团队来说,这简直是核武器级的生产力。


凭空捏出一个声优,还能千人千面


VoxCPM 2的另一大突出能力,就是音色设计。


现在市面上多数模型只能对固定音色进行情感或风格控制,但VoxCPM 2却能支持任意音色的生成。


因此,我们可以先用文字创造一个理想声音,精确控制它的情感和风格,这就为内容创作打开了无限空间。


比如下面这个武侠短剧的配音,无论是浪子侠客、活泼少女还是江湖老者,角色的贴合度都到了毛孔级别。


它不再是那种录音棚里冷冰冰的、毫无波澜的对白,而是带上了呼吸声、带上了情绪的起伏。


这就是核弹级的降维打击,从此再也不需要满世界去找配音演员了,VoxCPM 2一个AI就能生成千变万化的音色。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


另外,我们还试着让VoxCPM 2设计了一段《恋与深空》男主沈星移对女主的表白。


设计细节如下。


音色:清澈男中音,偏冷调但非冰冷,类似「月光落在雪地上」的质感


语速:日常语速偏慢,约每分钟130-150字;内心戏时更缓


气息:句尾常有极轻的吸气或叹息感,表现隐忍


果然,VoxCPM 2分分钟复现了一个乙女游戏男主的音色,像是在克制情绪,却又无法藏住那份对女主那份压抑隐忍的深情,简直满分!


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


温柔能设计,冷也能。


我们用控制指令写了一段人设,「中年男性,声音干涩发紧,语速很慢,每说完一句就停下来,音量始终很低,像是自言自语」,让它念一段鲁迅体吐槽。


我翻开朋友圈一查,满屏都写着两个字,副业。横竖睡不着,仔细看了半夜,才从字缝里看出字来,割韭菜。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


没有参考音频,没有克隆对象,这个声音是VoxCPM 2凭一段文字描述从零生成的。


浪子侠客、深情男主、冷面文人,音色设计的上限取决于你的想象力。


李白痛饮,七句诗七种情绪


甚至,我们还能通过指令,让每一句话都拥有不同的情绪。


「弃我去者,昨日之日不可留」,指令写「声音沉缓,咬着字尾,像酒后吐郁气」。模型给出了每个字都顿一下的沉闷感,透着力。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


「长风万里送秋色」,指令写「像深吸一口气往外放,畅快激动」。「秋色」二字被明显拉长,声音一下子打开了。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


「抽刀断水水更流,举杯销愁愁更愁」,指令写「语速放慢,音调降低,尾音拖长」。「愁更愁」三个字几乎是叹气,但又带着一股不服气。


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


从郁闷到豪迈,从悲伤到释然,每一句的情绪走向都精确跟着控制指令在转。


30种语言覆盖全球,哪吒出海不用找翻译


除了音色克隆和设计,这一次,VoxCPM 2还给出了跨语种的降维打击。


它不仅30种全球主流语言,而且尤其强化了东南亚八国的语种,包括泰语、越南语、印尼语、马来语、菲律宾语等。


要知道,这些语种全是出海团队盯得最紧的赛道,现在一个模型全包了。


说到这儿,那就少不了我们国产电影和电视剧的东南亚出海了。


狂揽159亿票房的《哪吒之魔童闹海》中,哪吒有一段经典台词:「我命由我不由天,是魔是仙,我自己说了算!」


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


VoxCPM 2给出的泰语、越南语版本,都呈现出极其自然的原声质感。哪吒那种混不吝的狠劲儿,都在异国语境里被完美显现出来。


曾经出海配音需要面对的文化隔阂、口音偏差和昂贵的人力成本,现在在 VoxCPM 2面前,都彻底失去了屏障!


接下来,我们做一个东南亚语言的真实商业场景测试。


我们写了一条15秒带货广告脚本,用VoxCPM 2分别输出泰语、越南语、印尼语、马来语、菲律宾语五个版本。


控制指令统一设定为「年轻女性,清亮活泼,像电商直播主播推荐产品」。


早上好!新到的冰椰拿铁,椰香浓郁,入口丝滑。现在下单第二杯半价,今天喝过的朋友都回来复购了。别犹豫,点下面链接直接拍!


张雪机车燃爆封神!国产2B语音模型重磅开源,全网听完都起鸡皮疙瘩


结果让人大为惊喜:五个语种切下来,发音原汁原味,是我们的东南亚朋友都听不出破绽的程度了。


成本呢?如果是用那些按字符收费的闭源平台,五种语言一天跑30条,一个月下来光账单就得好几千美金,让老板们肉疼。


但如果是VoxCPM 2上场,成本也就是一张4090显卡的几度电费的钱,大大利好跨境电商团队!


五场测试跑完,克隆、方言、设计、情绪、多语种,没有一个场景让它露怯。


中国小模型全家桶独一份

开发者疯狂用脚投票


在AI开源界,好用是一方面,配套全不全才是决定开发者用不用脚投票的关键。


这次,面壁智能提供的是全家桶级的工具箱,真正做到了让用户上手即用。


部署层面,原生Torch推理、LoRA微调、全参数微调都支持。高吞吐场景有专门的VoxCPM-NanoVLLM做GPU推理。


生态层面,ComfyUI、WebUI插件一应俱全,甚至为性能狂魔准备了Rust语言重构版本。


从MiniCPM到VoxCPM,面壁智能一直押注「高知识密度」路线,用更小的参数量(2B)打出超越百亿级的性能。


对开发者来说,部署成本更低,推理速度更快,端侧应用更灵活。


而它的开源路线,更是让人疯狂打call。


要知道,现在语音模型的头部闭源平台ElevenLabs,光Pro套餐就要99刀一个月,而这只有50万字符额度,超了另算。


相比之下,VoxCPM 2完全是开源的,不收一分钱,可以随意拿去修改和商用。


目前,VoxCPM 2的体验链接已经上线,GitHub开源仓库在OpenBMB/VoxCPM,模型权重开放下载。


技术理想主义

让中国AGI更有「声音」


VoxCPM 2能做到以上这些,底层是技术路线的选择。


目前开源TTS领域的主流技术路线是Token-based。把连续的语音信号先切成离散的声学Token,再用语言模型逐个预测。这个过程不可避免会丢失声学信息和情感细节。


VoxCPM 2走的是另一条路,扩散自回归连续表征。


用个类比来解释。


Token-based的方法像是先把一幅油画拍成马赛克照片,再试图从马赛克还原油画。每次「打马赛克」都会丢失一些色彩过渡的细节。


VoxCPM 2的方法是在连续的颜色空间里作画,不经过马赛克这一步。声音的细腻纹理天然保留得更完整。


落到听感上,差异很明显。


你去听VoxCPM 2克隆出来的声音,气息感、齿音、喉咙的震动,这些微妙的声学细节保留度好得多。


开头那段鲁迅的冷讽之所以能做到「不靠音量靠气息」,底层就是这条技术路线在撑着。


至此,AI语音的「暴力美学」时代正式结束,VoxCPM 2开启的是一个更细腻、更普惠的新时代。


这场比赛,已经被彻底杀死了。


参考资料:

https://voxcpm.modelbest.cn/

https://github.com/OpenBMB/VoxCPM/ 

https://huggingface.openbmb.com/model/openbmb/VoxCPM2


文章来自于"新智元",作者 "好困 Aeneas"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales