龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一
龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
大家好,我是袋鼠帝。 我用AI编程工具,花了半天时间开发出了这个,信息聚合与灵感管理平台(打破信息差),非常好用~
AI 编程这么火,想训练个 SWE Agent 却没有资源怎么办?
3 月 20 日,知名 AI 代码编辑器 Cursor 高调发布了所谓的编程模型 Composer 2,结果被网友质疑「套壳」 Kimi K2.5。而从官方口径来看, Composer 2 的性能简直是降维打击:全基准大幅领先前代,首次引入持续预训练,叠加大规模强化学习,能解决需要数百个操作的高难度编程任务。
Claude Code又上杀手锏!新增Channels功能,Telegram/Discord直连编程会话,手机直接遥控AI写代码。
据《华尔街日报》披露,OpenAI 正在策划一场近年来最大的产品重组:计划将 ChatGPT、编程平台 Codex 以及自家的 Atlas 浏览器,分阶段整合进一个统一的桌面端「超级应用(Superapp)」。移动端的 ChatGPT 暂时保持不变。
众所周知,Cursor作为模型提供商,早期还靠供应Claude模型狠狠吸了一波粉。结果现在,它自己搞出了一款编程模型,而且转身就把Claude拉下马了——其最新编程模型Composer 2,不仅能力超越Claude Opus 4.6,关键是价格降了非常多。
在休斯顿南边那片化工厂和炼油厂密布的工业带,Cory LaChance 每天打交道的东西是管道等轴测图(piping isometric drawing)。这类图纸记录了工业管道系统中每一根管子的走向、每一个焊缝的位置、每一种材料的规格。
在AI编程智能体快速演进的今天,一个核心痛点愈发凸显:AI能写代码,却难以理解代码。更深层的问题是:即便模型能力再强,若缺乏结构化的工程约束与上下文支撑,智能体也难以稳定、可预期地完成真实工程任务。
刚刚,一篇阿里联合中山大学的研究在 X 上爆火了!