AI资讯新闻榜单内容搜索-Ai语音

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8921 点击 2026-06-24 10:29

干掉 Whisper：我把 VoiceVault 迁移到 FunASR，本地转录加总结爽的飞起，已然是一枚离线录音加待办神器

把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR（sherpa-onnx），中文识别速度提升 3x，不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事，让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。

来自主题: AI技术研报

6288 点击 2026-06-18 15:28

正在升温的 Voice AI 赛道，出现了一家初创团队 Hojo

当所有人都在盯着通用大模型时，Voice AI 这条相对安静的赛道里，也开始出现一些值得注意的新模型。最近，一家名为 Hojo 的创业团队公开披露了一组语音识别测试结果，似乎有成为「黑马」的趋势。

来自主题: AI资讯

12355 点击 2026-06-10 20:07

一个语音转文字的 AI 工具站，月访问量 3000 万

最近看到了一个音频转文字的 AI 工具站：turboscribe.ai。

来自主题: AI资讯

8076 点击 2026-06-08 15:27

速递｜Boson AI × SGLang 发布 Higgs Audio v3 TTS：让语音智能体实时可控

Boson AI 与 SGLang-Omni 团队宣布，SGLang-Omni 已完成对 Higgs Audio v3 TTS 的端到端 Serving 支持。作为一家成立于 2023 年的 AI 基础设施公司，李沐与 Alex Smola共同创立了 Boson AI，聚焦大模型时代的系统与基础设施创新。

来自主题: AI资讯

8964 点击 2026-06-06 10:18

AI 版的 Siri，可能长这样

Apple 必须面对它过去三年最难堪的一个问题——为什么全世界最贵的智能手机，装着一个最蠢的 AI 助手？当地时间 5 月 28 日，在发布会前十天，外媒率先曝光了答案。

来自主题: AI资讯

10365 点击 2026-05-29 15:12

速递｜OpenAI收购Weights.GG，拿下AI语音克隆技术，6名核心成员入职

据一位熟悉该收购的人士透露，OpenAI 在一月收购了 Weights.GG，这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。大约六名员工加入了 OpenAI，OpenAI 收购了该创业公司的知识产权，但并不打算整合该创业公司的产品。

来自主题: AI资讯

10616 点击 2026-05-18 11:33

豆包输入法Mac版正式上线，所有人都该试试AI语音输入了。

豆包输入法的Mac版，终于正式上线了。我自己已经内测使用了快1个月了，但是我等这一天，也真的等了好久好久。因为这篇文章我想写很久了，但是一直没写就是因为，对于大众用户来说，之前还一直没有一个比较好的产品能让大家去随便的体验语音输入法，所以一直在等豆包输入法上线，然后再发，这样其实所有人就都可以开始把这种方式用起来了。

来自主题: AI资讯

8683 点击 2026-05-13 13:13

TTS也要真人感！首个字级内容、毫秒级停顿控制的语音合成系统

语音合成这两年发展迅速：把一段话顺顺当当地念完，已经不算难事；难的是该慢的时候慢，该顿的时候顿，该强调的时候真能把重点托出来。

来自主题: AI技术研报

6220 点击 2026-05-13 10:00

对话Noiz AI：清华字节团队押注音频AI模型，斩获全球百万用户和知名基金投资

Noiz AI是一家低调务实的音频AI公司，由前Meta、字节员工，及清华、北大、港科大校友联合创立。团队大部分成员是00后，清北校友占据半数左右。

来自主题: AI资讯

8047 点击 2026-05-07 15:33