当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化的“机器学习工程师”。
MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了一个完全可执行的交互式环境,让AI智能体可以通过结构化的反馈循环,反复实验、调试并优化解决方案 。
在MLE-Dojo的竞技场上,团队对当前八个顶尖的LLM进行了全面评测。
结果显示,Gemini-2.5-Pro在综合Elo评分中拔得头筹,但即便是最强的模型,在自主生成长流程解决方案和高效解决复杂错误方面也仍然有提升空间 。
目前,团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 。
一起来看详细内容。
团队通过深入分析发现,尽管现在已有多个针对LLM代码能力的基准,但它们普遍存在以下问题:
为了填补这一空白,MLE-Dojo应运而生。它不仅仅是一个“考卷”,更是一个能让AI智能体学习、成长和对战的“练功房”和“竞技场”。如下表所示,MLE-Dojo在交互性、训练支持和任务广度上全面超越了以往的基准。
△表1:MLE-Dojo与其他MLE智能体基准的比较
MLE-Dojo的核心是一个连接AI智能体和机器学习任务环境的标准化交互框架 。在这个框架中,智能体可以像人类工程师一样,通过一系列动作来解决复杂的Kaggle竞赛任务。
整个交互过程被建模为一个循环:智能体根据当前观察(Observation)做出动作(Action),环境执行该动作后,返回新的观察和相应的奖励(Reward) 。
△图4:MLE-Dojo框架概览,展示了智能体与环境的交互循环
其主要贡献和特点可以概括为:
为了全面、公正地评估各大顶尖LLM的机器学习工程能力,研究团队设计了一套多维度的综合评测体系,而非依赖单一指标。
多维度综合评测体系
综合性能对决
在这套严格的评测体系下,八大前沿LLM在50个评估任务上展开了激烈角逐。
△图6 & 图1:八大前沿LLM在MLE-Dojo上的Elo综合评分及排名
Gemini-2.5-Pro综合实力登顶:在最关键的Elo综合评分中,Gemini-2.5-Pro展现出最强的竞争力,拔得头筹 。在衡量绝对性能的HumanRank分数上,它同样表现优异,例如在MLE-Lite任务集上超越了61.95%的人类选手 。
顶尖模型各有千秋:紧随其后的是DeepSeek-R1和o3-mini等模型,它们同样展现了作为机器学习智能体的强大实力和适应性,在各项指标中均名列前茅 。
除了最终排名,MLE-Dojo的精细化数据还让我们得以深入剖析每个模型的行为模式和“性格”。
行动策略与模型“性格”:
分析发现,不同模型展现出迥异的解题策略。
例如,表现优异的o3-mini策略非常“激进”,超过90%的动作都是直接执行代码,展现出极高的自信 。
而gpt-4o则相当“保守”,仅有约20%的动作是直接执行,花费了大量时间在初步验证上 。这种策略差异直接影响了它们的解题效率和最终表现。
失败率与稳健性分析:如下图所示,Gemini-2.5-Pro不仅性能领先,其在代码验证和执行中的总体失败率也是最低的 ,这表明其生成的代码不仅效果好,而且更加稳健可靠。相比之下,一些性能同样不俗的模型却伴随着更高的失败率 。
△图12:各模型在任务中的平均失败率,Gemini-2.5-Pro的总体失败率最低
此项研究为评估和提升AI智能体的机器学习工程能力提供了一个强大的开源平台。通过模拟真实世界的挑战,并提供一个可以不断学习和进化的环境,MLE-Dojo将推动AI从一个“解题工具”向一个真正的“自主工程师”迈进,并最终对整个科学研究和工程领域产生深远影响。
项目主页:https://mle-dojo.github.io/MLE-Dojo-page/
排行榜:https://huggingface.co/spaces/MLE-Dojo/Leaderboard
论文:https://arxiv.org/abs/2505.07782
Github:https://github.com/MLE-Dojo/MLE-Dojo
文章来自于微信公众号“量子位”,作者是“小石不是小石头”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner