AI资讯新闻榜单内容搜索-研究

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

10494 点击 2025-05-28 11:58

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

2023年，业界还在卷Scaling Law，不断突破参数规模和数据规模时，微软亚洲研究院张丽团队就选择了另一条路径。

来自主题: AI技术研报

7084 点击 2025-05-26 14:35

这位前百度实习生建立了一个牢不可破的 AI 帝国。

让我们把时钟拨回 2014 年 5 月，当刚完成博士后研究的 Dario Amodei 决定加入百度研究院（Baidu Research）时，他绝不会想到自己有朝一日能够亲手打造属于自己的 AI 帝国，并成为连谷歌和微软都无法撼动和忽视的强劲对手。

来自主题: AI资讯

10912 点击 2025-05-26 11:03

o3首次公开反抗，人类已失控！爆改自杀程序拒绝关机，全网惊恐

天网又近了！o3被曝出无视人类指令，自主破解关机程序，甚至篡改脚本终止命令。不过厉害的是，它竟揪出了Linux内核中的安全漏洞，获OpenAI首席研究官盛赞。

来自主题: AI技术研报

8083 点击 2025-05-25 14:31

Claude 4如何思考？资深研究员回应：RLHF范式已过，RLVR已在编程/数学得到验证

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

10211 点击 2025-05-24 17:43

ChatGPT引爆教育革命，学习效果暴涨86.7%！

担心AI让学生懒？一篇Nature子刊的元分析汇总了51项研究，揭示ChatGPT显著提升中小学生学业表现和高阶思维能力。从语言到STEM，从短期突破到长期成长，AI正以科学的方式走向教育未来！

来自主题: AI资讯

9247 点击 2025-05-24 17:38

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

11178 点击 2025-05-24 15:33

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归。曾因llya离职OpenAI，在互联网上掀起讨论飓风的柏拉图表示假说提出：所有足够大规模的图像模型都具有相同的潜在表示。

来自主题: AI技术研报

9111 点击 2025-05-24 11:46

大型研究显示：AI大热两年半，完全没颠覆我们的工作

丹麦研究显示，生成式AI推出两年半后尚未显著改变劳动力市场，员工收入与工作时长无明显变化。尽管AI工具提升了部分工作效率(平均节省2.8%时间)，但转化为薪资涨幅不足1%。工作内容出现新任务调整，但未减少原有职责，且多数企业将节省时间转化为其他工作量。

来自主题: AI资讯

9619 点击 2025-05-24 11:03

多模态长文本理解测评首发：46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench，旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报

9016 点击 2025-05-23 14:52

AI资讯新闻榜单内容搜索-研究

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

她如何把“系统2”带给了大模型 ｜对话微软亚洲研究院张丽

这位前百度实习生建立了一个牢不可破的 AI 帝国。

o3首次公开反抗，人类已失控！爆改自杀程序拒绝关机，全网惊恐

Claude 4如何思考？资深研究员回应：RLHF范式已过，RLVR已在编程/数学得到验证

ChatGPT引爆教育革命，学习效果暴涨86.7%！

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归

大型研究显示：AI大热两年半，完全没颠覆我们的工作

多模态长文本理解测评首发：46款模型无一攻克128K难关

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽