OpenAI 推出三款实时语音模型,可边听边「思考」、翻译和转录
OpenAI 推出三款实时语音模型,可边听边「思考」、翻译和转录不知道大家平时有没有这种经历。
来自主题: AI资讯
7036 点击 2026-05-08 10:18
搜索
不知道大家平时有没有这种经历。
OpenAI凌晨发布最新生产级别语音模型和API。Realtime API实现语音直接处理,支持图像输入、远程MCP服务器与SIP打电话,极大简化语音智能体构建;而新一代语音到语音模型gpt-realtime,在音质、理解力、指令遵循和函数调用上全面提升,语音几乎媲美真人,还能多语种切换与细腻表达。