
AI 月报丨大模型下半场与产品成败的关键;拥有更多用户可能会让模型更强;全球算力投资又凉了一些
AI 月报丨大模型下半场与产品成败的关键;拥有更多用户可能会让模型更强;全球算力投资又凉了一些2025 年 4 月的 AI 月报,你会看到:“评估(Evals)” 成为模型和 AI 产品开发的关键词;Google 继续提升 Gemini 模型能力的思路; OpenAI 的 GPT-4o 为什么变得谄媚,以及背后的问题;用户规模与模型能力提升关系不大?可能要有变化了
2025 年 4 月的 AI 月报,你会看到:“评估(Evals)” 成为模型和 AI 产品开发的关键词;Google 继续提升 Gemini 模型能力的思路; OpenAI 的 GPT-4o 为什么变得谄媚,以及背后的问题;用户规模与模型能力提升关系不大?可能要有变化了
AI研究中,基准测试(benchmark)和排行榜在评估模型性能上扮演着关键角色。
当您的Agent需要规划多步骤操作以达成目标时,比如游戏策略制定或旅行安排优化等等,传统规划方法往往需要复杂的搜索算法和多轮提示,计算成本高昂且效率不佳。来自Google DeepMind和CMU的研究者提出了一个简单却非常烧脑的问题:我们是否一直在用错误的方式选择示例来引导LLM学习规划?
Google也不知道受了什么刺激,最近在AI场上,好像越来越有站起来的意思了。
你的默认编程模型是什么?或许可以换一换了。刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸
从来没想过,AI 跑出来的语音,竟然可以摆脱「外国人说中文」,对味儿!Google 系的第一大爆款 NotebookLM 发布更新,现在(终于)支持多达五十种语言来生成播客——包括中文。
最近,Google 官方发布了一份长达 69 页的【Prompt Engineering 白皮书】,可以说是目前最系统、最权威的“AI 沟通指南”了。我们也是第一时间翻译好了这本书,准备【免费】送给大家!
Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。
核心主角依然是Gemini。
非常荣幸受邀前往 Las Vegas 参加 Google Cloud Next 大会!之前对 Google 的了解不够深入,参与这次大会之后才发现 Google 在 AI 上的投入和布局相当全面。总的来说,Google 想做的事情就不只是“卷模型”,而是把整个生态系统都搭起来——从开发、部署,到协作和落地,一个都不落下。