
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。
据自媒体“申妈的朋友圈”消息,知情人士透露,字节人工智能实验室 (AI Lab) 负责人李航已经正式卸任,他在内部系统的身份变为劳务/顾问。
「西部世界」真的要来了!科学家们正试图为AI装上人类大脑。最新进展由美国国家实验室主导。
知识以一种奇怪的方式进入了我的大脑。
当地时间6月15日,据知名科技记者马克·古尔曼透露,苹果AI与机器学习战略高级副总裁约翰·詹南德雷亚(John Giannandrea)已逐渐淡出苹果公司核心管理层,甚至可能在不久后 “离开苹果公司”。
上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。
让网页智能体自演进突破性能天花板!
arp 成立于 2021 年,旨在通过其技术赋能的托运商、承运商和仓库网络,帮助企业优化货运供应链并降低成本。
AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。