OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

9410点击 2025-04-03 10:57

论文地址：https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

开源地址：https://github.com/openai/preparedness

PaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

Agent 必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括了解论文贡献、开发代码库以及成功执行实验。为了进行客观评估，OpenAI 开发了评分标准，将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准是与每篇 ICML 论文的作者共同开发的，以确保准确性和真实性。

为了实现可扩展的评估，OpenAI 还开发了一个基于评分标准的评判者，可以自动根据评分标准对复制尝试进行评分，并通过为评判者创建单独的基准来评估评判者的表现。

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

在 PaperBench 上评估了几个前沿模型，发现性能最佳的测试 Agent 是 Claude 3.5 Sonnet（新）并采用开源脚手架，平均复现得分为 21.0%。

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

最后，OpenAI 招募了顶尖的 ML 博士也来尝试 PaperBench，发现模型的表现尚未超越人类基线。

文章来自于“特工宇宙”，作者“宇宙编辑部”。

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

关键词: AI , openai , PaperBench , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md