12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

8700点击 2026-03-11 10:02

让AI像Kaggle顶尖选手一样设计算法，需要几步？

上海AI实验室「书生」科学发现平台最新开源的MLEvolve给出了答案：12小时登顶MLE-bench榜单第一。

MLEvolve的核心是一套自进化机器学习系统。它用渐进式蒙特卡洛图搜索替代传统树搜索，让不同尝试路径之间实现经验互通；用全局记忆层记录每一次成败，让智能体越探索越聪明；还用多模式代码生成和多智能体协作，覆盖从方案设计到代码审查的全流程。

最终成绩单：在75道Kaggle竞赛题上，MLEvolve以61.33%的奖牌率超越所有24小时基线方法，高难度任务中更是领先——且只用了12小时。

12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

算法发现：科学创新的重要驱动力

科学研究的诸多重大进展，都离不开算法与方法论层面的突破。快速傅里叶变换（FFT）革新了信号处理与科学计算的效率，反向传播算法推动深度学习从理论走向实践，密度泛函理论（DFT）则为计算化学与材料科学提供了高效的电子结构计算方法并获得诺贝尔奖——新算法的发现与设计，本质上是在为科学研究创造新的工具，其价值往往远超单一问题的解决本身。

算法发现也是创新能力的一种重要体现。能够自主设计和优化算法，意味着不仅掌握了现有工具的使用，更具备了创造新工具的能力。在AI时代，让智能系统具备算法层面的创新能力，是迈向自主科学发现的关键一步。

『书生』科学发现平台（Intern Discovery）是上海人工智能实验室面向AI驱动科学发现构建的综合性平台。作为支撑平台的核心技术之一，InternAgent 1.5构建了生成、验证、进化三大协同子系统，将科研抽象为可不断迭代的智能推理过程。

MLEvolve作为其中验证子系统的方案优化引擎，聚焦于算法设计与优化任务——在MLE-bench基准上以12小时登顶榜首的成绩，正是AI自主算法设计能力的一次有力验证。

从“写代码”到“自主设计算法”：AI还差什么？

大语言模型已经能写出质量不错的代码，但面对Kaggle这样的真实ML竞赛——它们本质上是算法设计与工程优化的综合试炼场——仅凭一次性生成远远不够。数据处理、特征工程、模型选型、训练调优，每个环节都需要反复迭代与试错。真正的挑战在于：如何让AI像顶尖选手一样，在有限时间内持续探索、总结经验、不断进化算法方案？

现有的机器学习智能体距离这个目标仍有差距：搜索策略不够高效，难以在庞大的方案空间中快速定位最优方向；不同尝试之间彼此孤立，成功的经验无法积累复用，失败的教训也无法反哺后续迭代。

在此背景下，上海人工智能实验室Intern Discovery团队联合华东师范大学推出了MLEvolve——一个基于蒙特卡洛图搜索（MCGS）与多智能体协作的自进化ML工程框架。MLEvolve从架构设计、搜索策略、代码生成到经验管理，构建了一套完整的自主算法优化体系。

核心成果：MLEvolve在MLE-bench基准上以61.33%±1.33%的奖牌率登顶榜单第一，尤其在高难度竞赛中以42.22%的表现领跑所有方法——且仅使用12小时运算预算，低于其他顶尖系统的24小时标准。

解密MLEvolve：四大模块打造“自进化”闭环

MLEvolve的核心理念是：在长周期自动化任务中，系统不应止步于生成一个方案，而应持续搜索、验证与精进。MLEvolve将”规划→构建→评估→进化”编织为一个可重复的优化闭环，让智能体在有限预算内不断逼近更优解。

12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

框架由四大核心模块协同驱动：

渐进式蒙特卡洛图搜索（MCGS）——搜索引擎，负责多分支并行探索与智能调度

经验驱动的全局记忆层——知识中枢，记录并检索所有历史尝试的成败经验

多模式自适应代码生成——执行引擎，根据任务状态选择最优编码策略

多智能体专业化分工——协作体系，八大专业Agent各司其职、协同进化

四者协同构建出从经验积累→智能搜索→方案精修→闭环验证的完整自进化链路。

核心技术创新

一、渐进式MCGS：从”线性树”到”图式网络”的搜索革命

传统的蒙特卡洛树搜索（MCTS）虽能在单一路径中平衡探索与利用，但由于分支独立、信息孤立，在复杂ML任务中效率受限。MLEvolve创新性地提出了渐进式蒙特卡洛图搜索（Progressive MCGS），通过三大机制实现搜索能力的质变：

12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

1. 时间感知的探索-利用切换

MLEvolve引入了时间感知的软切换策略，根据剩余时间预算动态调整搜索模式。搜索前期，系统以探索为主，广泛尝试不同方向以覆盖方案空间；随着时间推移，系统平滑地从探索转向利用，逐步聚焦于已证明有效的方案区域进行深度优化。这种自适应的调度策略确保了”前期广撒网、后期精雕琢”的高效搜索节奏。

2. 跨分支融合与轨迹进化

当某条搜索分支陷入停滞（连续多次尝试无提升），MLEvolve不是简单放弃，而是启动两种进化策略：

分支内演化（Evolution）：回顾当前分支的完整改进轨迹，总结得失规律，利用历史经验提出新的优化方向

跨分支融合（Fusion）：从其他成功分支的最优节点中提取关键策略，将不同分支的优势融合为全新方案

这种从”树”到”图”的结构升级，让不同搜索路径之间实现了真正的经验互通与优势聚合。

3. 多层级停滞检测

MLEvolve实现了多层级停滞检测机制，在分支级和全局级同时监控搜索进展。一旦检测到某条分支或整体搜索陷入瓶颈，系统自动切换策略——从常规改进升级到演化模式，进而触发跨分支融合，确保搜索始终保持前进动力。

二、经验驱动的全局记忆：让智能体越探索越聪明

优秀的Kaggle选手总能从过往比赛中汲取经验，MLEvolve通过全局记忆层赋予智能体同样的能力。每一次搜索尝试——无论成功或失败——都会被记录为一个结构化的四元组：规划方案、完整代码、性能指标、成败标签。

记忆检索采用BM25文本匹配+FAISS向量语义搜索的混合策略，兼顾关键词精确匹配和语义相似度。当智能体规划下一步方案时，会自动检索历史中的相关经验：强化被验证有效的策略路径，同时规避已知的失败陷阱。

更巧妙的是，不同类型的Agent以不同方式查询记忆：改进Agent侧重学习成功经验以精进方案，草稿Agent则更关注失败案例以避免重蹈覆辙，融合Agent则广泛检索多分支信息以激发新的组合灵感。这种差异化的记忆调用机制，既保证了经验复用的效率，又维持了探索的多样性。

三、多模式自适应代码生成与多Agent协作

12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

MLEvolve采用“规划-编码”解耦的工作流，先由Planner生成结构化的优化方案，再由Coder将方案转化为可执行代码。在代码生成环节，系统支持三种模式，根据搜索状态灵活切换不同场景：

全量生成模式（Base）：一次性生成完整可执行方案，快速建立高质量的初始解空间，为后续优化奠定基础

分步合成模式（Stepwise）：基于机器学习流程分步骤生成与整合，在细粒度层面持续优化长链路逻辑，确保复杂任务的每个环节都达到最优

增量修补模式（Diff）：针对局部代码进行精准替换与迭代，在保留有效结构的同时快速验证新策略，大幅提升迭代效率并维持稳定性

在协作层面，MLEvolve构建了一支覆盖ML工程完整生命周期的多智能体团队，涵盖方案设计、迭代优化、错误修复、代码审查、数据泄露检测等关键环节。系统根据当前搜索状态自动调度最合适的Agent——探索阶段由草稿Agent开拓新方向，瓶颈时由进化与融合Agent突破局限，全程由审查Agent保障代码质量。这种专业化分工与动态调度机制，使得整个系统如同一支高效运转的AI工程团队。

实验结果：12小时登顶，全面领先

12小时登顶OpenAI MLE-bench！上海AI Lab开源算法进化框架MLEvolve

MLE-bench榜单第一

MLEvolve在MLE-bench基准（75道Kaggle竞赛题）上取得了全面领先的成绩：

几个关键亮点值得注意：

效率惊人：仅用12小时就达到了其他方法24小时才能达到的水平，时间效率提升一倍

高难度领跑：在最具挑战性的High难度竞赛中取得42.22%的最佳成绩，体现了系统在复杂场景下的深度优化能力

全面均衡：从低难度到高难度任务均表现出色，展示了框架的强泛化能力

驱动InternAgent 1.5：从算法设计到跨学科科学发现

MLEvolve不仅是一个独立的ML竞赛解决方案，更是Intern Discovery的核心技术之一——InternAgent 1.5中的方案优化引擎。

InternAgent 1.5构建了生成、验证、进化三大协同子系统，将科研抽象为可不断迭代的智能推理过程。MLEvolve所提出的图增强蒙特卡洛搜索机制与经验驱动记忆，正是验证子系统中方案优化能力的核心支撑——将搜索空间构建为动态图结构，支持历史轨迹回溯与跨分支知识融合，实现从“单点试错”到“全局协同”的探索范式升级。

在此基础上，InternAgent 1.5已从算法设计任务进一步拓展至跨学科科学发现场景，其通用性已在生物科学、地球科学、物质科学等领域得到验证。MLEvolve的全面开源，也为社区构建和优化自己的算法设计与方案优化系统提供了坚实的技术基础。

前景与展望

MLEvolve的开源标志着AI智能体从“代码生成”到“自主算法设计”的关键一步。它证明了通过图结构搜索、经验驱动记忆与多智能体协作的深度融合，AI可以在复杂的算法设计任务中实现自主探索、持续学习与高效进化——算法发现能力正是创新能力的重要体现，也是为科学研究创造新工具的有效路径。

MLEvolve所展现的搜索-记忆-协作范式具有广泛的可迁移性——从算法设计到数据科学，从工程优化到科研自动化，基于图结构的探索逻辑与知识复用机制为方案优化类任务提供了通用的进化框架。

随着MLEvolve的全面开源，研究团队期待社区的力量能够推动这一框架走向更多应用场景，让自进化的AI工程伙伴惠及更广泛的研究与工程实践。

项目资源

『书生』·科学发现平台：

https://discovery.intern-ai.org.cn/home

项目主页：

https://internscience.github.io/MLEvolve/

开源仓库：

https://github.com/InternScience/MLEvolve

InternAgent系统：

https://github.com/InternScience/InternAgent

文章来自于“量子位”，作者 “MLEvolve团队”。

AI新闻 MLEvolve 书生AI 上海AI实验室

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/