网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

7535点击 2025-06-16 16:58

让网页智能体自演进突破性能天花板！

腾讯AI Lab提出WebEvolver框架，通过引入协同进化的世界模型（World Model），让智能体在真实网页环境中实现10%的性能提升。

由此突破现有基于大语言模型（LLM）的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。

下面的案例展示了世界模型在GitHub搜索界面中的合成轨迹生成能力：

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

研究指出，世界模型具有知识迁移能力，尽管世界模型未专门训练过GitHub中“点击排序菜单”这类操作，却能准确生成GitHub搜索的排序选项（如“最佳匹配”、“最多星标”等），这表明LLM内建的网页结构常识知识具有可迁移性。

另外研究还指出世界模型具有多样化轨迹生成能力，世界模型生成的菜单项与真实网站高度吻合，证明其能有效提升与未见过网站的交互多样性，这种能力源于LLM预训练阶段吸收的海量网页知识。

团队认为，该发现验证了世界模型作为“虚拟网页引擎”的核心价值——即使存在轻微幻觉，其生成的多样化轨迹仍能显著提升Agent的训练效果。

以下是论文详情。

引入协同进化的世界模型

最近，世界模型迎来了一波热潮：Yann Lecun推出了全新的世界模型V-JEPA 2，谷歌也发布了理论成果，证明General agents need world models，这些进展都凸显了世界模型在智能体发展中的重要性。

论文指出，当前智能体自我迭代的瓶颈源于两大核心问题：

探索局限：随着训练深入，智能体策略趋于保守，难以发现新状态和动作
知识闲置：LLM预训练时积累的海量网页知识未被充分激活

就像人类需要想象力来规划行动，智能体也可以使用一个’大脑模拟器’来预演不同操作的结果。

研究团队创新性地引入了协同进化的世界模型LLM。

在网页Agent场景中，世界模型被定义为这样一种LLM：

其输入为（当前网页观测、待执行的操作），输出则是执行该操作后的网页观测。

尽管在此过程中可能会出现“幻觉”问题，例如LLM无法输出实时信息，或其内部存储的网页知识可能存在错误，但这并不影响整体框架的有效性。因为本文的核心目标是让智能体在多样化的网站环境中进行稳健推理，而非要求世界模型完美预测下一页面。

（注：未来研究可聚焦于细粒度的下一页面预测，具体可通过在生成过程中对实时信息进行占位符掩码处理，等待外部工具填充真实数据来实现。）

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

这个世界模型扮演着双重角色：

1、虚拟服务器：生成多样化的合成训练轨迹

通过世界模型模拟与未见网页的交互。具体操作为，将原本网页智能体系统中的网页服务器直接替换为世界模型LLM来进行交互、采集生成的轨迹，作为额外的训练数据（图2上半部分）。

2、想象引擎：推理时多步前瞻推演

使用类似WebDreamer的基于LLM对未来预测进行action筛选的方法，在每一步action生成时生成多个候选，利用世界模型来对每个action未来1～3步的结果进行预测。使用GPT-4o对候选动作评估潜在收益后执行最佳操作（图2下半部分）。

协同自演进实验技术方案详解

本研究构建了一个完整的自演进学习框架，其核心组件包括：

基础架构

数据集：OpenWebVoyager标准数据集（包含48种网站）
框架支持：Cognitive Kernel Agent浏览器交互环境
基座模型：纯文本大模型Llama-3.3（70B参数版本）

数据采集流程

采用Cognitive Kernel+Llama-3.3组合进行多步轨迹采样
通过”拒绝采样”机制筛选成功完成的轨迹
保留轨迹中的完整推理链（Chain-of-Thought）信息

双模型协同训练机制

Agent策略模型：学习轨迹中的动作决策模式
世界模型：重构为”当前观察+动作→下一观察”的预测任务
两模型共享采样数据但采用不同训练目标函数

技术突破点

首创将浏览器交互轨迹同时用于策略模型和世界模型训练
通过轨迹格式转换实现单数据源多任务学习
建立可扩展的自演进训练范式（iterative bootstrapping）

重复多轮（3轮）自演进之后，在WebVoyager和Mind2web-live数据集上进行测试，自演进结果：

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

结果：

自演进baseline在第二轮后增长受限
世界模型对突破性能瓶颈的关键作用
合成轨迹数据有效提升探索多样性
多步前瞻（d=2）达到最佳性价比

在GAIA和SimpleQA (前100条数据，和bing.com进行交互搜索) 这两个有标准答案的数据上进行out-of-domain测试，也能显著提升结果。

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

团队对世界模型的网页建模能力也进行了一些评估，在测试的轨迹里采样了一些轨迹，让世界模型根据上一步观测和执行的action预测下一步的观测。

网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

评估标准为：

结构正确性(STR)：检验生成网页的可访问性树在层级结构和元素关系上是否符合真实网页的拓扑逻辑
内容相似度(Sim.)：量化生成内容与真实网页在文本语义层面的匹配程度
整体功能评估(O/A)：综合判断生成网页在交互功能和语义表达上的可用性

评估重点特别关注交互元素（按钮/输入框等）的功能完整性、动态内容（如搜索结果）的逻辑合理性、网页核心功能的可操作性。

该评估体系有效验证了世界模型对网页状态变化的预测能力，为模型优化提供了量化依据。发现世界模型的能力随着自演进的步骤提升而上升。

总之，WebEvolver框架通过世界模型与智能体的协同进化，成功突破传统自演进智能体的性能天花板。该技术为构建持续进化的通用网络智能体提供了新范式，为后续无环境RL的实现提供引导。

论文网址：https://arxiv.org/pdf/2504.21024

GitHub：https://github.com/Tencent/SelfEvolvingAgent/tree/main/WebEvolver

文章来自于“量子位”，作者“腾讯AI Lab”。

关键词: AI , 智能体 , WebEvolver , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/