 
让 AI 开口「像人」:最难的不是智能,是「嗓音」
让 AI 开口「像人」:最难的不是智能,是「嗓音」Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。
 
Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。
 
周日晚上,都准备去睡觉了。结果在 X 上刷到一条消息,有个国外的博主说,MiniMax 的 M2 模型将会成为中国最好的模型,与 Sonnet 4.5 旗鼓相当。 我当时心里咯噔一下。MiniMax?
 
月之暗面融资传闻升级,估值或逼近MiniMax。Kimi产品因MAU下滑、DeepSeek冲击失速,战略转向Coding和Agent方向,推出分层会员订阅商业化。杨植麟在开源上妥协,但坚持基座模型和toC路线,面临分发弱势和高昂成本,未来半年需明确定位应对激烈竞争。
 
10 月 27 日,国产「好模型」阵营又迎来一位新成员,MiniMax 发布了全新大版本模型 M2,延续了 M1 时代的开源策略。它不仅在 Coding 与 Agent 能力等方面继承了 M1 的优势,更在成本效率、智能水平、响应延迟这 3项关键指标上,同时迈出了一大步。
 
GPT-5 的发布,可以看作是一个分水岭。练习时长两年半的 GPT-5,并没有展现出和 GPT-4 本质上的差别,甚至因为模型的预设人格引发了用户的反感情绪。
 
引言:2025年8月,一则资本市场的消息引发了游戏与人工智能行业的双重关注——据媒体报道,人工智能独角兽企业 MiniMax(稀宇科技)已秘密向香港交易所递交招股书,计划在港股上市,预计估值超过40亿美元。翻阅MiniMax的融资历史会发现,早在2022年7月,游戏巨头米哈游就已在Pre-A轮参投了Minimax。
 
“一句话做应用”,虽说这个概念已经并不新鲜。但说实话,市面上能真正达到交付标准的产品寥寥无几。
 
2025年被视为 AI Agent元年,各家科技巨头也纷纷出手,谁都不想错失这个火热的赛道。
 
MiniMax 现在正在主动加速「从功能到可流通生产力」的进程。他们正在举办一场总奖金高达 15 万美元的 AI Agent 全球挑战赛,核心理念是「让自己的 Idea + Agent 成为生产力,成为市场中的硬通货」。Remix 则是官方重点推荐的参赛入口之一。
 
今天,MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型的上限。