
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
据 TechCrunch 报道,Recraft,这家神秘图像模型背后的初创公司,去年在一个备受尊敬的行业基准测试中击败了 OpenAI 的 DALL-E 和 Midjourney,已完成由 Accel 领投的 3000 万美元 B 轮融资。
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。
“定焦One”选取了市面上几家热门的AI榜单,分别是AI产品榜、Xsignal、AIGCRank、新榜,综合了月活(MAU)、日活(DAU)、下载量三个比较重要的维度,以及从业者的观点,梳理出1~3月全球AI应用的前二十及国内前十,有了以下发现:
本周,Supabase 的发展已经迎来高光时刻:据《财富》杂志报道, Supabase 宣布完成 2 亿美元 D 轮融资,投后估值 20 亿美元。本轮由 Accel 领投,Coatue、Y Combinator、Craft Ventures 及老股东 Felicis 参投。距离其上一轮 8000 万美元融资仅过去 7 个月,累计融资已达近 4 亿美元。
5月19-23日,ICRA 2025将在美国亚特兰大举行。届时,第一届“探索机器人能力边界双臂机器人挑战赛(WBCD,What Bimanual Can Do)”决赛也将在ICRA 2025现场拉开帷幕。
无论你是技术创造者还是使用者,理解这场认知革命都至关重要。我们正在从「AI as tools」向「AI as thinking partners」转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。
如果你曾在夜幕降临时,慌忙围出一块勉强能放下一张床的木屋,躲避午夜里徘徊的怪物;如果你曾在那片方块拼接的世界里,复现从自家校园到逶迤阿房的一切建筑;如果你曾沿着蜿蜒的矿道深挖,只为追寻岩浆洞穴里那抹耀眼的蓝绿色……那么,你一定懂得《我的世界》(Minecraft)的魅力!
单张图直接就能生成可编辑的CAD工程文件!
大型语言模型 (LLM) 在软体机器人设计领域展现出了令人振奋的应用潜力。