OpenAI深夜发布3个全新的语音模型,一手实测都在这了。
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:
当今世界,人们都在谈论生成式人工智能。全世界都知道所有最新的GenAI概念和术语——因此,你会比以往听到更多这样的话:“这个词不等于token”。全世界都开始实施至少一个或两个GenAI用例,当然——我引用它的意思是“改变生活”。
文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。
24年年底由Antropic提出并开源的MCP,如今已经成为AI编程及AI Agent领域热议的重要概念之一。截至发文前,Smithery已经收藏了 2211 个MCP Servers。需要注意的是,有些MCP可能不一定完全可用。
在去年的 Sequoia Capital AI Ascent 2024 上,红杉的几位合伙人在活动期间提出观点:“GenAI 在客服领域已经初步找到了 PMF”。时隔一年,在大模型落地的产品形态逐渐从单纯的 ChatBot 进化为 Agent 的当下,企业级 AI 客服将会有更多落地机会和想象空间。
「AI 届春晚」过去以来一直是 GTC 的外号之一,但在 GTC 2025 的开幕主题演讲中,这个梗被英伟达创始人、爱穿皮衣的老黄「偷了」。「我觉得 GTC 已经变成了 AI 界的超级碗」
Manus的火爆带热了多个技术概念,Computer Use Agent就是其中之一。但要探讨这种“电脑使用”智能体,还得从Claude 3.5 Sonnet说起。
超低成本图像生成预训练方案来了——仅需8张GPU训练,就能实现近SOTA的高质量图像生成效果。
25年开年以来,AI发展如火如荼,DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷,眼花缭乱。这里我将最近一个月以来的思考总结一下,对25年AI发展趋势做几点预判。