陶哲轩参赛,在这项极其严格的数学测试中,人类表现优于AI
陶哲轩参赛,在这项极其严格的数学测试中,人类表现优于AI就在外界惊呼“AI快要接管纯数学研究”之际,一场限制条件极其严格、并由30位数学家以匿名方式进行评审的数学测试,却揭开了AI数学能力的另一面:AI不仅会幻觉、会跳步骤,甚至还把数学家论文里的关键论证几乎原样照搬,却忘了注明引用。
搜索
就在外界惊呼“AI快要接管纯数学研究”之际,一场限制条件极其严格、并由30位数学家以匿名方式进行评审的数学测试,却揭开了AI数学能力的另一面:AI不仅会幻觉、会跳步骤,甚至还把数学家论文里的关键论证几乎原样照搬,却忘了注明引用。
来自 Sharpa、清华大学、UC Berkeley、上海交通大学、ETH Zurich 等机构的研究者提出了首个通用触觉基础策略 FTP-1。它基于约 3,000 小时、来自 26 个数据来源和 21 种触觉传感器的数据进行预训练
来自至知创新研究院(IQuest Research)、中国人民大学高瓴人工智能学院、KAUST等机构的研究团队提出了FORT,一个面向Deep Search Agent的shortcut-resistant training-data synthesis framework。
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
刚刚才发现,那堪称DeepMind「推理之王」的男人——周登勇(Denny Zhou),早已离开了谷歌。现在的东家是Meta,在MSL担任研究科学家。整个过程极其低调。没有长篇大论的告别信,没有Meta的高调官宣,如果不是LinkedIn上的职位信息悄悄更新,外界甚至不知道这位大牛已经易主。
布朗大学的博士生 Yong Zheng-Xin 今天自宣了下个月将正式加入 OpenAI,作为 Astra Fellow 专注于 AI 的安全研究(AI Safety Research)。
停停停!再这么跟AI聊下去,真要出事了。
UBC 和 Weathon Software 的研究提出,图像的美学对齐正在削弱艺术表达。
最近,Anthropic 团队研究产品经理 Theodora(Theo)Chu 的一段演讲视频,引起了大家的注意。
AI递归自改进和AI研究自动化正在从概念走向现实。对此,哈萨比斯夜不能寐。