腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

7053点击 2025-08-07 11:04

当AI智能体（Agent）开发的浪潮涌来，很多一线工程师却发现自己站在一个尴尬的十字路口：左边是谷歌、OpenAI等巨头深不可测的“技术黑盒”，右边是看似开放却暗藏“付费墙”的开源社区。大家空有场景和想法，却缺少一把能打开未来的钥匙。而现在，腾讯AI Lab的《Cognitive Kernel-Pro》研究，递上的可能正是这把钥匙。

在GAIA基准测试中，完胜同级开源对手，并且有一套完整的开源免费解决方案，代码、数据、模型全数公布于GitHub。

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

并且他们现在已有81颗star。https://github.com/Tencent/CognitiveKernel-Pro

问题的根源

当前最顶尖的AI智能体，特别是那些能像人类研究员一样自主上网、处理文档、分析数据的“深度研究智能体”，其背后的技术壁垒非常高。这导致了一个很尴尬的局面：

闭源系统的“铁幕”：像OpenAI、Google等公司推出的智能体，功能强大，但我们无法得知其内部的具体架构和训练细节。这使得我们很难学习和复现它们的能力，更不用说进行二次开发了。

开源方案的“付费墙”：社区里虽然有很多开源的智能体框架，但为了在性能上追赶闭源系统，它们往往需要集成各种第三方付费服务，比如用于网页内容抓取的FireCrawl、用于文档解析的Chunkr等。这对于预算有限的团队或个人开发者来说，无疑是一道难以逾越的“付费墙”。

正是因为看到了这些困境，研究者们才下定决心要打造一个真正开放、普惠的框架，也就是我们今天的主角 Cognitive Kernel-Pro。

Cognitive Kernel-Pro

一套开源、免费的“乐高”式解决方案

您可以把Cognitive Kernel-Pro想象成一套用来搭建“AI大脑”的乐高积木，它最大的特点就是开源和免费。研究者们的目标很明确：让任何一个开发者都能用上最前沿的智能体技术，而不用担心被技术或费用卡脖子。

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

Cognitive Kernel-Pro的技术路线图，它整合了之前多项研究成果，并在黄色部分标示了本次工作的核心创新点。

它的核心设计非常巧妙，采用了一种分层的模块化架构，就像一个高效的项目团队：

Main-Agent 一位“项目总监”

这个主智能体是整个系统的大脑，负责接收复杂的任务，然后进行精准地拆解，把一个个子任务分配给最合适的“专家”去处理。它不亲自干活，但对每个专家的能力了如指掌。

Sub-Agents 几位“领域专家

这些子智能体是真正干活的。比如：

网页智能体（Web Agent）：它就像一个精通网络冲浪的专家，能使用playwright工具自主打开浏览器、点击链接、填写表单、滚动页面，甚至在需要时截取网页图片，交给多模态模型进行分析。

文件智能体（File Agent）：这位专家则擅长跟各种文档打交道，无论是PDF报告、Excel表格还是图片文件，它都能轻松处理。为了应对大文件，它还会聪明地把文件一页一页地看，而不是一次性加载，非常高效。

整个框架的“沟通语言”是Python代码。这意味着，无论是主智能体下达指令，还是子智能体执行任务，都是通过生成和执行Python代码来完成的。它让我们能用最熟悉的方式去理解、控制和扩展AI的行为。

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

Cognitive Kernel-Pro的框架概览，左侧展示了智能体的核心工作流，右侧则清晰地描绘了主智能体与子智能体之间的层级结构和各自的功能。

“喂养”AI：高质量数据的独家配方

一个再好的框架，如果没有高质量的“养料”（训练数据）来喂养，也只是个空架子。我觉得，这篇论文在数据构建上的思路，是其最核心的贡献之一，充满了智慧。

反向出题：让AI自己成为“出题官”

研究者们没有采用传统的“找题给AI做”的模式，而是另辟蹊径，让AI自己给自己出题。这个过程被称为“基于智能体探索的数据构建”，具体操作是这样的：

1.反向出题：研究者们修改了主智能体的任务目标，不再是“寻找答案”，而是“创造问题”。智能体会接收到一个宽泛的主题（比如“2000年以来的太空探索进展”），然后自主地去网上搜索、阅读多个相关的网页或文档（比如NASA官网、维基百科）。

2.信息整合：在阅读和探索之后，智能体会把从不同来源找到的信息碎片整合起来，构造出一个新的、必须结合这些信息才能回答的复杂问题。例如，它可能会问：“将NASA在2005年发射的所有火星探测器的总重量，与维基百科上列出的‘好奇号’火星车的重量进行比较，哪个更重？”

3.生成答案与轨迹：在生成问题的同时，智能体也会记录下完整的、能够解决这个问题的行动轨迹和最终答案。

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

论文中展示了信息聚合的过程，智能体需要通过计算、排序、分析等操作，才能从多个来源的信息中得到最终答案。

基于提示的训练轨迹采样

这种方法生成的数据质量非常高，因为它天然地包含了多步推理、信息整合和跨源验证的需求。除了这种核心方法，他们还用到了一个非常聪明的技巧：

基于提示的训练轨迹采样（Hint-based Sampling）

在让另一个AI去学习解决这些新生成的问题时，研究者发现，如果直接把正确答案的“中间步骤”或“关键信息”作为提示（Hint）悄悄地塞给它，它的学习成功率会大大提高。当然，这些提示就像是给学生的“小抄”，只在“模拟考试”（即数据收集阶段）时使用，在最终的“正式考试”（即模型训练阶段）前，这些提示会被全部拿掉，以确保模型学到的是真正的解题能力，而不是对提示的依赖。

推理时的两大“纠错”法宝

我们都知道，AI模型在实际运行时，尤其是在面对充满不确定性的真实网络环境时，很容易“犯错”或“走神”。为了让智能体表现得更稳定、更可靠，研究者们设计了两套非常实用的优化流程。

第一招：自我反思（Reflection）

这就像是给AI装上了一个“复盘”模块。每当智能体完成一次任务后，它不会立刻提交答案，而是会先启动“反思”程序，从四个维度对自己刚才的表现进行严格的自我审查：

答案非空（Non-Empty）：我给出答案了吗？还是交了白卷？

答案合理（Reasonable）：如果问题是问一个地名，我回答的是不是一个看起来像地名的东西？有没有夹带私货或无关信息？

过程成功（Successful）：在执行任务的过程中，有没有出现打不开文件、访问不了网站之类的低级错误？

来源可靠（Reliable）：我得出结论所依据的信息来源，靠谱吗？逻辑站得住脚吗？

一旦发现任何一项不达标，智能体就会判定这次任务“不合格”，然后自动重试，直到拿出一个自己满意的结果为止。

第二招：集体决策（Voting）

如果说“反思”是“吾日三省吾身”，那么“投票”就是“三个臭皮匠，顶个诸葛亮”。这个机制非常简单粗暴但有效：让智能体把同一个任务，用不同的思路尝试好几次（比如3次）。

完成后，它会把这几次的全部过程和结果摆在一起，然后利用上面提到的“反思”标准作为投票依据，选出那个它认为最完美、最可靠的轨迹作为最终答案。论文里举了一个生动的例子：当被问及某位歌手最早的专辑时，一次尝试可能找到了2000年的专辑，另一次尝试找到了1990年的。通过投票对比，智能体就能轻易判断出1990年的答案更准确。

GAIA基准测试上的硬核对决

理论说得再好，终究要看实际效果。研究者们选择了业界公认的、难度极高的GAIA基une测试来检验Cognitive Kernel-Pro的实力。这个测试集就像是AI智能体的“高考”，全面考察它们在网页浏览、文件处理、多模态理解等多种复杂任务上的综合能力。

强劲的对手们：闭源与开源的同台竞技

为了证明自己的含金量，Cognitive Kernel-Pro不仅要和同级别的开源项目比，还要敢于和那些含着“金钥匙”出生的闭源商业系统叫板。

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

闭源系统：比如论文中提到的Manus、Deep Research等，这些通常由大公司支持，拥有最顶尖的模型和海量资源，是业界的性能标杆。

开源系统（付费工具加持）：例如OWL和OAgent，它们虽然代码开源，但为了追求高性能，集成了像FireCrawl、Chunkr这类强大的商业工具。

开源系统（免费工具）：这是Cognitive Kernel-Pro所在的赛道，对手包括SmolAgents、WebDancer和WebSailor等。其中，WebDancer和WebSailor是阿里巴巴通义团队的力作，在Web智能体领域有很高的知名度。

令人信服的成绩单：数据不会说谎

实验结果真的挺给力，可以说是在开源免费这条赛道上取得了压倒性的胜利

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

GAIA基准测试性能对比。左图展示了Cognitive Kernel-Pro在使用免费工具的情况下，与使用付费工具的系统的性能对比；右图则显示了其8B模型相较于其他7B模型的优越性。

与顶尖选手掰手腕：当搭载了强大的Claude-3.7模型后，Cognitive Kernel-Pro在不使用任何付费工具的情况下，其Pass@3（尝试3次内的成功率）达到了惊人的70.91%。这个成绩不仅远超同赛道的Smolagents等对手，甚至可以和那些依赖付费工具的OWL（69.09%）以及顶尖闭源系统Manus（73.3%）掰一掰手腕，含金量十足。

自研模型大放异彩：这才是最关键的。研究者们用自己创造的数据，训练了一个80亿参数的开源模型CK-Pro-8B。在GAIA的纯文本任务子集上，这个“亲儿子”模型的表现全面超过了同为70/80亿参数级别的WebDancer和WebSailor。具体来说，它的Pass@1（一次成功率）高出约2%，而Pass@3则高出超过10%。这有力地证明了，他们提出的这套框架和数据训练方法，是真正有效的，能够赋能社区打造出自己的高性能模型。

我们能从中获得什么？

说了这么多，这项研究对我们的实际工作到底有什么帮助或启发呢？

构建AI智能体有了新范本：Cognitive Kernel-Pro为我们提供了一个清晰、可行的蓝图。它的模块化设计、以代码为中心的行动模式，以及主智能体-子智能体的协作方式，都非常值得我们在设计自己的AI应用时借鉴。

数据构建有了新思路：如果您也在为如何获取高质量的指令微调数据而烦恼，不妨试试论文中“让AI自己出题”的思路。这种方法不仅能生成更复杂的任务，还能自动打包好解决方案，极大地提高了数据生产的效率和质量。

提升AI可靠性有了新工具：“反思”和“投票”这两个机制，原理虽简单，但却非常实用。您可以很轻松地将类似的思想集成到自己的产品中，通过增加自检和多重验证环节，显著提升AI服务在真实、复杂场景下的稳定性和准确性。

Cognitive Kernel-Pro不仅仅是一个开源项目，它更像是一本详尽的、开源的“AI智能体开发指南”，它告诉我们，即使不依赖昂贵的闭源API和付费工具，我们同样有机会打造出第一梯队的AI智能体。

文章来自于微信公众号“AI修猫Prompt”。

关键词: AI新闻 , 模型训练 , GAIA , Agent框架

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0