小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。
从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
关键在于,从加入那一刻起,你就能对公司产生影响。因此在团队中,你可能承担任何角色。资历长短不会决定你在层级中的位置。只要足够聪明、敏捷且充满热情,就能快速提升自我——这点确实很有帮助。
键盘作为人机交互的主要工具,实质上是一个巨大且不自然的「输入、输出瓶颈」。在「后键盘时代(post-keyboard future)」,语音或许才是最好地交互方式。
一家名为Gradium 的巴黎人工智能语音初创公司,从非营利研究实验室中独立出来,并获得了 7000 万美元的融资,投资方包括前谷歌首席执行官埃里克·施密特和法国电信亿万富翁泽维尔·尼尔等一线投资者。
a16z 指出:“模型开发的进展正在简化整个基础设施栈,使得语音智能体具备更低延迟和更高性能。这一提升主要出现在过去六个月内,得益于新一代对话模型的出现。”基于这些趋势,Deepgram 与 Opus Research 合作开展的《2025 语音 AI 状况调查报告》,基于 400 位商业领袖的洞察,涵盖十多个行业,分析了语音 AI 的应用现状与关键特性。
「大家严重低估了 Voice 作为 AI 交互界面的潜力。」
谁能想到,AI把ASMR也给干了...... 那是一个困倦的午后,吃饱饭的我正瘫在工位上准备入眠。我瘫在椅子上,耳机里传来轻柔的ASMR助眠声音。那里的毛刷轻轻刮着麦克风,发出微弱的、令人神经愉悦的摩擦音。而我也在这声音的安抚下昏昏欲睡。
来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。