
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
一篇文章,一键转成几乎跟真人无异的十几分钟中文AI播客。
Google I/O 2025 结束后,Google CEO Sundar Pichai 接受了《The Verge》主编专访,这也是双方连续第三年于 I/O 后展开对谈,而今年的背景更为特殊:Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台,Google 展现出前所未有的产品化信心。
真乐观的科学家和创业者们常低估人性的缺陷,而高谈阔论的历史和哲学家们,在描绘悲观问题时又很难提出解决方案。
既当裁判员,又当运动员?
第一财经「新皮层」独家获得消息称,小红书已将内部大模型技术与应用产品团队升级为「hi lab」(人文智能实验室,Humane Intelligence Lab)。同时,小红书今年年初开始组建「AI人文训练师」团队,邀请有深厚人文背景的研究者与AI领域的算法工程师、科学家共同完成对AI的后训练,以训练AI具有更好的人文素养以及表现上的一致性。而这个「AI人文训练师」团队也隶属于「hi lab」。
当我们谈论“玩具”时,惯性地会联想到儿童、娱乐与消费属性。但在AI技术快速演进的当下,玩具的定义正在悄然发生变化——它不再只是儿童的专属物件,也不仅是简单的娱乐工具,而正逐步演变为一个集感知、交互与情绪反馈于一体的智能终端。它可能是孩子成长中的伙伴,也可能是老年人日常的陪伴者,亦或是成人情绪缓释的寄托载体。
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。
GPA是死线 or 没那么重要? 有人表示,比起发表的论文,其实GPA并不是那么重要,因此TOP 20绝对是可以达到的。
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。