ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

9098点击 2026-05-22 08:45

训练强化学习智能体时，一个常见问题是：有些 level 太简单，智能体跑几遍就会；有些 level 又太难，智能体几乎得不到有效反馈。前者只是在重复已有能力，后者则会把训练预算消耗在无效探索上。真正有价值的训练环境，往往位于二者之间。它刚好超过智能体当前能力边界，但又没有难到完全学不会。换句话说，强化学习训练也存在某种「最近发展区」：高效训练的关键，不只是生成更多 level，而是找到当前阶段最值得学的 level。

Unsupervised Environment Design（UED）正是围绕这一问题展开。UED 不再把训练环境看作固定数据集，而是通过自动生成、选择或重放 level，动态塑造训练分布，让智能体在持续学习中获得更好的泛化能力。但 UED 面临一个核心难题：系统需要知道，哪些 level 真正推动了智能体学习。

近日，来自国防科技大学、厦门大学等机构的研究者提出了 PACE（Parameter Change Environment Design）。PACE 使用 level 诱导的策略参数变化作为训练价值信号，直接衡量该 level 是否带来实际学习进展。该工作已被 ICML 2026 接收。

论文题目：PACE: Parameter Change for Unsupervised Environment Design
论文链接：https://doi.org/10.48550/arXiv.2605.01358

UED：让训练环境自己形成课程

UED 的出发点并不复杂。传统强化学习通常先给定一批训练环境，再让智能体在其中反复学习。但训练环境并非越多越好，也不是越难越好。如果 level 太简单，智能体很快进入「舒适区」，只能巩固已经掌握的行为；如果 level 太难，智能体又会进入「恐慌区」，长期得不到有效奖励。两种情况都会削弱学习效率和最终泛化能力。

在 UED 之前，Domain Randomization 已经表明，环境多样性有助于提升泛化能力；但这类方法通常只是静态地随机采样环境参数，难以根据智能体当前的学习状态动态调整训练内容。

UED 进一步将「训练什么」纳入学习过程：系统不再把训练环境视为固定背景，而是动态生成、选择或重放 level，并根据某种评价信号决定哪些 level 更值得保留、重放或进一步编辑。理想情况下，这些 level 应该持续贴近智能体当前能力边界：既不轻易被解决，也不完全超出可学习范围。

现有 UED 方法通常需要一个 score 来评价 level。常见做法包括 regret、GAE、MaxMC 等。这些信号在实践中有效，但它们更多从可解性差距、价值估计误差或回报估计出发，没有评估「这次训练到底带来了多少策略改进」。另一类方法更直接，例如 Marginal Benefit 会比较策略更新前后的表现变化，因此更接近真实学习进步。但它需要额外 rollout 来估计更新前后的回报，计算开销更高，估计方差也更大。

因此，UED 的核心问题就变成了：如何简单而准确地判断一个 level 是否真正推动了智能体的学习？

PACE：用参数变化衡量学习进步

PACE 的核心判断很直接：如果一个 level 真正促成了学习，那么智能体在这个 level 上训练后，策略参数应该发生有意义的变化。也就是说，PACE 不再把 level 的价值建立在 regret、GAE 或 Monte Carlo return 等间接信号上，而是直接观察该 level 诱导的策略更新。

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

图 1：PACE 工作流程图。

基于这一 score，PACE 的运行过程可以分为两个部分：level scoring 和 policy training（图 1）。

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

实验结果：从迷宫泛化到开放式任务

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

图 2：MiniGrid 上的零样本迁移性能。

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

表 1：MiniGrid 上的整体泛化指标。

为了进一步检验 PACE 在更复杂任务中的适用性，论文还在 Craftax 上进行实验。Craftax 是一个面向开放式强化学习的 JAX benchmark。随着探索推进，智能体会遇到新的区域、机制和目标，任务分布也会持续变化，因此更能检验 UED 方法是否能在长训练过程中持续提供有效课程。

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

表 2：Craftax 上 20 个未见过 levels 上的平均回报和标准差。

结语与展望

在强化学习智能体需要持续适应未见环境的背景下，如何准确识别真正推动学习的 levels 是 UED 的关键问题；PACE 通过参数变化这一简单、低方差、计算友好的内生信号，将环境评价直接建立在 realized learning progress 之上，从而减少代理指标偏差、高方差估计和额外 rollout 开销的影响，并为构建更稳定、更可扩展的自适应训练课程提供了新的思路。

文章来自于"机器之心"，作者 "原方"。

关键词: AI新闻 , 模型训练 , PACE , Parameter Change Environment Design

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md