从「知题」到「知人」:UserRL让智能体学会「以人为本」
从「知题」到「知人」:UserRL让智能体学会「以人为本」来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。
来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。
斯坦福大学研究人员提出了Paper2Agent,将静态论文转化为可交互的AI智能体,让学术成果可以直接被「调用」,为科研知识传播开辟了新模式,并为构建AI共研生态奠定基础。
清华大学朱军教授团队,NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化
“科学的尽头是玄学。”朋友圈的 985 研究生如是说。 封面图片由AI生成 “AI 说我能暴富,但我书都没翻开。” 2018 年,一个男大学生因为朋友的怂恿,酒局中打开了一本星座占卜书,当他只是根据朋
该团队 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已从理论上指出,连续思维链的一个关键优势在于它能使模型在叠加(superposition)状态下进行推理:当模型面对多个可能的推理路径而无法确定哪一个是正确时,它可以在连续空间中并行地保留所有可能的路
国庆长假,AI 大模型献礼的方式是一波接一波的更新。OpenAI 突然发布 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,Kimi 则是更新了 App,然后默默在自己的版本记录里面,写下了这句话。
近日,DeepMind 最新推出了一种全新的用于代码安全的 AI Agent—CodeMender,它使用 Gemini Deep Think 自动修补关键软件漏洞。它会检查补丁是否正确、是否能够修复根本原因,并且不会引起其他任何破坏。这确保只有高质量的解决方案才会被发送给人工审核。
10分钟,答案浮出水面!陶哲轩用ChatGPT,发现一道30多年来一直认为悬而未决的问题,其实早被华人数学家给破解了。没有「神迹」,他这次只是用对了工具链:ChatGPT算出级数前几项、输入特定数据库、命中序列、找到文献、确认答案。
科技与信仰之间的张力持续存在。 封面图片由AI生成 出品|白鲸出海编辑部 最近的《月流水上涨数倍、多品类爆发,AI 产品在移动端越来越赚钱?》选题中我们观察到一款名为 Bible Chat:Daily
论文提出的方法名为 RL4HS,它使用了片段级奖励(span-level rewards)和类别感知的 GRPO(Class-Aware Group Relative Policy Optimization),从而避免模型偷懒、只输出无错误预测。
9 月 8 日,美国弗吉尼亚州的卡丽·爱德华兹走进州彩票局领奖时,就跟去拿外卖一样平静。她前几天买了一张彩票,中了 15 万美元(约 106 万元),她决定全部捐出,因为这张彩票,是她随口问 ChatGPT 要来的数字,没想到真中奖了,卡丽并不想贪图这种幸运的「偏财」,她已将奖金捐赠给不同的慈善机构。
近日,来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架,一个新颖的原生检索增强推理框架,教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。该框架现已全面开源,包括训练数据集、训练代码、模型 checkpoints 和评估代码,为社区提供一套完整的、可复现工作。
你见过这样的“盲眼”机器人demo吗?这些丝滑小连招来自亚马逊机器人团队FAR(Frontier AI for Robotics)发布的首个人形机器人(足式)研究成果——OmniRetarget!
早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。
OpenAI 2025开发者日上,全场座无虚席。奥特曼重磅官宣四大更新:首发Apps SDK要把ChatGPT打造为「操作系统终极入口」,一键拖拽构建智能体AgentKit,无代码Codex开发,以及Sora 2等三大API登场。OpenAI的野心,彻底藏不住了。
OpenAI宣布与AMD达成战略合作,将共同部署高达6GW的AMD Instinct MI450 GPU集群,首批1GW预计于2026年下半年启用。作为协议的一部分,OpenAI可认购最多1.6亿股AMD普通股,持股比例或达10%。消息公布后,AMD盘前股价飙升35%!
基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。
在 AI 圈里,聚光灯总是追逐着那些履历光鲜的明星人物。但一个伟大的团队,不仅有台前的明星,更有无数在幕后贡献关键力量的英雄。之前我们介绍了 OpenAI 的两位波兰工程师,最近 OpenAI 又一位身处幕后的工程师成为了焦点。
被马斯克xAI起诉窃密一周后,OpenAI的回应终于来了。OpenAI透露,已就此事件向法院递交了答辩状和驳回动议申请,不仅全面否认指控,还斥责马斯克滥用诉权对其进行滋扰。并且OpenAI的这则通告立场十分强硬,直言将保护员工,不会被“霸凌行径”吓倒。
AI正在把科技与资本结合的力量,推向一个新的市场高度。先看这张图,基本上能说明过去40年美国经济与产业的演变。 1985年初的美国十大公司,到2015年仅剩下两家,到2025年全部消失。1985年,主
在 AI Agent 应用浪潮中,一个来自新加坡的新名字——Agnes AI,正以一种特别的方式进入我们的视野。一方面,是其宣布的惊人增长:不到三个月,DAU 突破十万;另一方面,却是市场声量相对的沉寂。
不是拼凑知识点,AI这次是真搞研究。一个叫Virtuous Machines的AI系统,花了17小时、114美元,找了288个真人做实验,写了一篇30页的学术论文。而且还是从选题到成稿全自动化速通!?
现在AI给影视行业带来的变化,就像当年从胶片到数字的革新一样。 作者 | 李威(北京) 国庆假期刚开始,Sora 2就引爆了整个AI圈子。 这个新的视频模型带来了对现实世界更精准的呈现,有更强的可控性
整理:李楠 在AI创造者嘉年华期间,播客《乱翻书》主理人潘乱与真格基金合伙人刘元、蓝驰创投合伙人曹巍、锦秋基金合伙人臧天宇以及峰瑞资本投资合伙人陈石一起进行了一场对话,聊了聊今天最活跃的投资人们,在如
近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信, 叫做:「OK Computer」。 阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。
2025年9月17日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型(简称“聆音”)。该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成,在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越,性能全面登顶。
本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同
十一假期AI眼镜成旅游新宠,其解放双手特性(拍照、翻译、物品识别)吸引早期用户。拍照最受欢迎,视障群体也意外受益。行业迎“百镜之战”,但面临续航短、舒适度差、软件生态待完善等问题。AI眼镜需克服使用频率低、形态待进化等难关,避免重蹈Kindle覆辙,才能真正冲击“超级硬件”地位。
据报道,英伟达已取消其第一代SOCAMM内存模块的推广,并将开发重点转向名为SOCAMM2的新版本。不久前,英伟达曾表示计划今年为其AI产品部署60-80万个SOCAMM内存模块,但据称随后发现了技术问题,项目两次搁置,并未能下达任何实际的大规模订单。目前开发重点已经转移到SOCAMM 2,英伟达已开始与三星电子、SK海力士和美光合作对SOCAMM 2进行样品测试。
逆天,太逆天。一老哥在《我的世界》上手搓了一个ChatGPT!这你敢信?这款手搓GPT不仅经过英语对话训练,有500万个参数,还能在像素世界里的小电脑上跟你对话。