MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!
7824点击    2025-09-04 13:08

当你刚用 AI 生成了一个精美的电商网站,却在演示时购物车结账功能存在隐藏 Bug?


AI 能在数分钟内生成完整的电商网站,开发者却像“数字农民工”花几小时甚至几天手动测试每个功能、验收每个模块。每次面对新的界面布局,都要重新编写测试脚本,整个流程既低效又容易出错。


这正是当前 AI 软件领域的核心矛盾:代码生成智能化狂飙突进,测试验收却仍停留在“手工时代”。


针对这一痛点,MetaGPT 推出用户智能体,具备“双重身份”设计:既是一位资深的产品经理,严格按照产品设计和场景边界进行验收;也是一位不知疲倦的 AI 测试工程师,7×24 小时进行全面测试,从源头杜绝“能跑就行”的平庸方案,真正实现从代码生成到质量保障的全链路自主化。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


用户智能体技术报告现已正式发布。


由来自 DeepWisdom、复旦大学、香港科技大学(广州)、斯坦福大学、耶鲁大学和新加坡国立大学等顶尖机构组成的研究团队,发布 RealDevWorld 框架,通过 AppEvalPilot 实现端到端自动化评测,专为生产级代码提供自动化端到端交互测试,标志着 AI 软件测试迎来范式级突破。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


论文地址:https://arxiv.org/pdf/2508.14104


开源代码:https://github.com/tanghaom/AppEvalPilot


项目主页:https://realdevworld.metadl.com/


开源数据集:https://huggingface.co/datasets/stellaHsr-mm/RealDevBench


测试轨迹对比: https://appevalpilot.realdev.world/


研究背景


AI 的快速发展,尤其是 LLM 和编程智能体的崛起,正在重塑软件开发格局。AI 已从最初生成简单代码片段,发展到能够自主构建包含图形界面和复杂交互逻辑的完整应用程序。


然而,随着能力的提升,如何建立高效全面的评估体系来衡量这类复杂软件的质量,特别是包含图形用户界面(GUI)和用户交互的应用,成为亟待解决的挑战。


现有评估方法主要依赖静态代码分析和单元测试,局限于函数级别的功能验证,依赖人工编写测试代码,主要适用于基础逻辑功能检测。


然而,对于需要通过复杂操作交互(如绘图、拖拽操作)和动态反馈机制(如实时搜索、游戏操作)进行的功能测评,传统方法缺乏有效的评估能力。


当前 AI 生成的软件,如博客网站、工具应用、游戏等,包含丰富的交互操作和功能逻辑,你无法通过单一的代码审查或者静态评估,知道应用程序是否真正“能用”,直到你亲自去点击它、与它互动,并观察它如何响应,才能全面评估软件的表现。


因此,能够模拟人类交互、持续进行动态测试的智能化评估方法至关重要,它不仅能全面验证功能完整性和可用性,还能推动 AI 生成软件的质量评估迈向生产级水准。


如图 1 所示,软件开发测评基准不断演进:评估方式越来越智能、自主,评估对象也从简单的函数代码,逐渐扩展到完整仓库,最终迈向生产级别的代码质量评估。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


RealDevWorld:全新的评估框架


我们提出了基于“Agent-as-a-Judge”的评估框架 RealDevWorld,包含软件开发任务数据集 RealDevBench 和评估智能体 AppEvalPilot


  • RealDevBench:多领域开放软件任务数据集


RealDevBench 包含 194 个开放式软件工程任务,覆盖显示、分析、游戏和数据四大领域,具有三大特点:


1. 从零构建完整仓库;


2. 支持图像、音频、文本、表格等多模态输入;


3. 涵盖从视觉组件到动态交互的多层次功能。


如下图所示,RealDevBench 中的每个任务由三个部分构成,以模拟真实的软件开发场景:


1. 需求描述 (Requirement Description):简要的文本说明,用于概括项目的目的与背景;


2. 功能列表 (Feature List):结构化的功能目标清单,明确系统需要实现的功能并作为成功判定的标准;


3. 补充材料 (Supplementary Materials):与任务相关的额外资源,如图像、音频或数据集,引入更贴近现实的复杂性;


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


  • AppEvalPilot:基于 Agent 的自动化评估系统


为实现自动化、端到端的软件交互测试,我们提出了具备 GUI 能力的评估智能体 AppEvalPilot,采用 Agent-as-a-Judge 范式,模拟用户验收与评估流程,完成从需求到测试的全链路过程。其评估流程分为三阶段(如下图所示):


1. 测试用例生成:结合少样本学习与领域知识(如游戏机制、数据安全协议),自动生成 15–20 个高质量上下文相关用例,并通过结构化提示模拟专业测试工程师。


2. 测试用例执行:Agent 基于 GUI 多模态交互能力操作软件,结合 A11yTree 文本信息(XML)与视觉信息(OCR、图标、截图等)实现页面解析和元素定位。Agent基于四类原子动作:Open(启动应用程序)、Run(鼠标键盘模拟,如Type、Click、Scroll等)、Tell(输出结果)、Stop(结束流程),将测试用例转换为有序多步骤执行序列,通过动作组合自主完成表单填写、网页导航、多级菜单操作等复杂交互。Agent 采用 Plan-Act 执行框架,集成反思机制实现规划动态调整,结合记忆机制优化关键任务状态记录,提升长程任务中的稳定性和自适应能力。


3. 结果评估:根据 RealDevBench 的功能目标,将执行结果分类为 Pass / Fail / Uncertain,生成结构化报告,并量化计算功能列表级或测试用例级分数。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


评估效果


针对软件质量自动评估能力,研究者们首先对 AppEvalPilot 进行了全面的测评,围绕两个关键研究问题:


1. AppEvalPilot 能否作为可靠的自动化评估方法用于 LLM 生成的软件的基准测评?


2. 与现有评估方法相比,AppEvalPilot 评估软件质量的效果如何?


(1)AppEvalPilot 能力验证


研究团队从 RealDevBench 中选取 49 个任务,分别进行测试用例级别和功能需求级别的标注,然后分别用 AppEvalPilot 和多个先进多模态大模型及 GUI 智能体进行对比,并采用准确性和人工评分一致性进行评估。


结果如下表所示,AppEvalPilot 表现优异,在测试用例级别准确性上达到 0.92,和人工评分一致性达到 0.81,超过 Claude、WebVoyager 等基线;在功能需求级别的评估一致性达到 0.85,远超 Browser-Use 的 0.58。同时,AppEvalPilot 的单应用的平均评估耗时为 9min,平均成本约为 0.26 美金。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


(2)对比评估分析


研究团队在 49 个软件项目对比了动态评估方法(AppEvalPilot)和两种静态评估方法:代码质量评估(Code Quality)和视觉质量评估(Visual Quality)。


如图所示,实验结果表明,传统静态评估方法存在显著局限性:代码质量评估和视觉质量评估的偏差分别比 AppEvalPilot 高出 2.79 倍和 3.34 倍,而 AppEvalPilot 与人工评估的重合率达到 0.96,凸显了动态交互评估的优越性。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


(3)RealDevBench 测评分析


研究团队基于 RealDevBench-Test 对多种先进 LLM、Agent 系统的代码生成能力进行了全面测评(见下图)。结果表明,单一 LLM 在真实软件开发场景中表现有限,即便是最新的 Kimi-K2、Claude-3.7-Sonnet 等先进模型,软件质量评分仍低于 0.4,普遍存在交互不完整、功能缺失和可部署性差等问题,而纯视觉和静态代码评估无法充分量化这些局限性。


相比之下,Agent 系统在复杂的软件开发任务上具备优势,在 Agent Quality 上相比于 LLM 平均提升 0.27,这主要是由于 Agent 系统能够结合设计、开发、执行验证等来提升代码可用性。


MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!


开启全自主质控新时代


面对 AI 代码生成爆发式增长,传统评估方式难以胜任,自主评估为大规模落地应用提供了新范式。RealDevWorld 通过 AppEvalPilot 实现端到端自动化评测,全面覆盖软件功能完成度、交互可用性和动态运行表现。


这不仅仅是评测工具的改进,更是自主评估范式的变革。 当 AI 系统能够像资深工程师一样自主思考软件质量,像产品经理一样自发反馈用户体验,像测试专家一样自动识别潜在问题时,我们正在见证从人工把关到智能自治质控的跨越。


“我们要让测试验收像代码生成一样智能高效,彻底告别手动测试时代”,项目负责人表示。这一突破意味着从个人开发者到大型科技公司,都将告别“AI 生成代码、人工手动测试”的低效模式,将开发者从繁重的手动测试中解放出来,专注于创新功能开发和架构优化,真正迎来端到端智能化开发新时代。


文章来自微信公众号“特工宇宙”,作者“特工少女”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md