
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
2025年7月17日,在GenAI Assembling 第五期硅谷Meetup上,最近火热的明星AI Agent 公司Genspark、Lovart、和Simular.ai的创始人,以及新一代基础设施公司SambaNova的Agent技术负责人,一起讨论了他们在今天AI Agent发展第一线所观察和感受到的一切。
“今年无趣许多。去年有很多特别有想象力的东西,但今年大家都变得极其务实,所有人都在求稳。”一位头部科技公司核心人士在WAIC现场直言不讳地吐槽。
如果你因为太热、太懒、太忙,没法来WAIC;或者是来到展馆,却不知从何逛起,在这份指南里,我们帮你把重点划好了。7月26日,世界人工智能大会(WAIC 2025)在上海世博展览馆开幕。这是一年一度中国AI领域最重要的盛会,没有之一。
就在刚刚,Meta 宣布,清华校友赵晟佳(Shengjia Zhao)将正式担任其超级智能实验室( MSL)首席科学家。
一年一度的 WAIC 在明天就要开始了,在正式开展之前,我跟随官方的 city walk 路线探访了一番。 我探访的这条「AI+智慧生活路线」一共有三个目的地:上海发那科机器人有限公司、上海腾讯滨江大厦、模速空间的智能产品体验中心。
在硅谷最新一波 AI 创业热潮中,有一家公司的成就让我彻底震惊。Swan AI 创下了几乎所有创业常识都认为不可能的记录:仅用 3 位创始人,没有任何员工,在短短 9 周时间内从零客户、零收入,飙升至 80 个付费客户和接近 100 万美元的年化收入。更令人难以置信的是,他们实现这一切没有筹集大量资金,没有雇佣一个销售人员,没有投放一美元广告,甚至没有建立客户支持团队。
人工智能和数学是密不可分的。 AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。
谷歌DeepMind不信邪。 这不前脚,谷歌刚获IMO金牌,小扎就光速挖走三名核心团队成员。 如此抓马又无语,更多人都劝谷歌DeepMind小心点儿吧,要不以后论文署名都匿名吧,实在不行学习中国互联网公司用花名吧……
前两周,广东某国企发了篇万字标文,以预算四十万招标一台DeepSeek一体机。 近乎30页的文档里,采购明细表短短6行,所需的芯片类型等关键指标,只字未提。“看这个标就知道,大家完全没把一体机用起来”,业内人士直言。