
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPODeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。
DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。
25年开年以来,AI发展如火如荼,DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷,眼花缭乱。这里我将最近一个月以来的思考总结一下,对25年AI发展趋势做几点预判。
在一轮轮 AI 基础建设起来之后,目前率先卷起来的应用场景,是「深度研究」。
最近刷信息流的时候,被一个东西笑喷了——
用户量 ≠ 变现能力,AI 应用商业模式逐渐成熟。MAU 和收入最高的 50 款移动 AI 应用仅 40% 交叉,部分低用户量应用反而变现能力更强。语言学习、植物识别、音乐工具等小众垂类 AI 应用,凭借精准需求吸引愿意付费的用户群体。
2025 年初,OpenAI、Perplexity、xAI 等 AI 公司都相继推出 Deep(Re)Search 功能。交给模型慢慢思考从而得到更详细的回答,成为了新潮流。
3月17日上午,零一万物发布万智企业大模型平台,并宣布全面拥抱DeepSeek。这是继DeepSeek引发行业巨震后,作为大模型六小虎之一的零一万物首次对外发声。李开复明确表示,公司的未来重点方向在于ToB业务。虎嗅获悉,零一万物将在2025年进行战略收缩,并尽快完成战略聚焦,资源向ToB大力倾斜。
DeepSeek爆火续写了AI行业的神话,但融资时对标OpenAI的百川智能,却并未迎来春天。
第一家全面拥抱DeepSeek的“六小虎”,出现了! 不卖关子,它就是李开复亲任CEO的零一万物。 今日正式上线万智企业大模型一站式平台,宣布提供企业级DeepSeek部署定制解决方案。
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?