AI资讯新闻榜单内容搜索-实时语音

深度｜OpenAI实时API技术细节揭秘，实时API支持函数调用和上下文管理，简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流，使得多模态AI应用（如语音对话Agent）得以实现。它通过WebSocket连接管理对话状态，并提供短语结束检测和语音活动检测（VAD）功能，大大简化了实时语音应用的开发。

来自主题: AI资讯

9175 点击 2024-12-13 17:05

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

来自主题: AI资讯

6856 点击 2024-11-20 15:01

Ichigo[1] 是一个开放的、持续进行的研究项目，目标是将基于文本的大型语言模型（LLM）扩展，使其具备原生的“听力”能力。

来自主题: AI资讯

6263 点击 2024-11-06 10:00

10 月 25 日， RTE 年度场景 Showcase 暨第四届 RTE 创新大赛，Founder Park 作为核心生态合作伙伴应邀出席。

来自主题: AI资讯

4238 点击 2024-11-01 10:26

十一假期第1天， OpenAI一年一度的开发者大会又来了惹！今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办，刚刚结束的是第一场。

来自主题: AI资讯

3733 点击 2024-10-03 13:07

今天，OpenAI 2024年首场DevDay在旧金山2号码头的Gateway Pavilion低调举办。

来自主题: AI资讯

9615 点击 2024-10-02 11:40

在算力资源的匮乏下，中国的实时语音AI正面临着一场艰难的较量，试图在技术舞台上与GPT-4o一决高下，这无疑是当前中国AI版图中的尴尬局面。

来自主题: AI资讯

4378 点击 2024-10-01 11:25

两个多月前那个对标GPT-4o的端到端语音模型，终于开源了。大神Karpathy体验之后表示：nice！

来自主题: AI技术研报

6424 点击 2024-09-24 12:07

最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。

来自主题: AI资讯

10726 点击 2024-07-06 19:57

最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。

来自主题: AI资讯

9035 点击 2024-07-05 00:17