
GPT-4o、NotebookLM带来的AI语音新变化,声网们是怎么想的?
GPT-4o、NotebookLM带来的AI语音新变化,声网们是怎么想的?GPT-4o 的语音演示,引燃了行业对于 AI 产品语音实时交互的想象,完全实时、可随时打断的 AI 助手,正成为新的 趋势。
GPT-4o 的语音演示,引燃了行业对于 AI 产品语音实时交互的想象,完全实时、可随时打断的 AI 助手,正成为新的 趋势。
有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
OpenAI的AI语音转写工具,那个号称近乎“人类水平”的Whisper,被曝幻觉严重—— 100多小时转录,被工程师发现约一半都在瞎扯。 更严重的是,美联社还爆料有医疗机构利用Whisper来转录医生与患者的会诊,瞬间引发大量网友关注。
在对标OpenAI之路上,智谱AI又近了一步。 今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。
昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。 灰度测试的内容是Kimi的语音通话功能。 现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。
只需3秒,你的声音就能被完美克隆。 谁能想到科技圈顶流之一的雷军,居然因为AI语音引起互联网热议?
据TechCrunch报道,投资者们正争相进入 ElevenLabs,该公司可能很快就会被估值为 30 亿美元。
十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办,刚刚结束的是第一场。
在算力资源的匮乏下,中国的实时语音AI正面临着一场艰难的较量,试图在技术舞台上与GPT-4o一决高下,这无疑是当前中国AI版图中的尴尬局面。