
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
OpenAI官方基准测试:承认Claude遥遥领先(狗头)刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
高通今日宣布收购越南人工智能开发商 MovianAI。MovianAI 是 VinAI Application and Research JSC 的生成式 AI 部门,后者是越南最大企业集团 Vingroup 旗下的机器学习研究实验室。此次收购后,包括前 DeepMind 研究科学家、VinAI 首席执行官 Hung Bui 在内的核心团队将加入高通。
最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由 IDEA、清华大学、北京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解,本届大会共收到 11672 篇论文,被选中做 Oral Presentation(口头报告)的比例约为 1.8%
最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文。
当今世界,人们都在谈论生成式人工智能。全世界都知道所有最新的GenAI概念和术语——因此,你会比以往听到更多这样的话:“这个词不等于token”。全世界都开始实施至少一个或两个GenAI用例,当然——我引用它的意思是“改变生活”。
最近, Meta首席AI科学家杨立昆接受海外播客This Is IT 的专访,探讨了深度学习的发展历程、机器学习的三种范式、莫拉维克悖论与AI发展的限制、训练AI模型的资源、AI基础设施投资等话题。
PyTorch机器学习大神Horace He宣布,正是离职加入OpenAI前CTO初创Thinking Machines。这位技术奇才,曾被OpenAI、SSI、谷歌等顶级AI实验室争相邀请,最终选择了刚刚成立的初创。他的选择,不仅是个人职业生涯的转折,更是对AI未来发展方向的一次战略性押注。
谷歌DeepMind 研究科学家 Nicholas Carlini,一位机器学习和计算机安全领域的大牛。以最贴近现实实用的角度,分享了他对大模型的看法,以及自己对大模型应用的50个案例。
满血版DeepSeek R1部署A100,基于INT8量化,相比BF16实现50%吞吐提升! 美团搜推机器学习团队最新开源,实现对DeepSeek R1模型基本无损的INT8精度量化。
本文是对亚马逊AWS研究团队最新发表的APO(自动提示词优化)技术综述的深度解读。该研究由Kiran Ramnath、Kang Zhou等21位来自AWS的资深研究者共同完成,团队成员来自不同技术背景,涵盖了机器学习、自然语言处理、系统优化等多个专业领域。