2024年,伯克利人工智能研究中心(BAIR)率先提出了一个新概念——复合人工智能系统(Compound AI Systems,简称CAIS)。这个看似简单的术语背后,蕴含着AI系统架构的根本性改变:不再依赖单一LLM的"超级大脑",而是构建多组件协同的"智能生态系统"。
伯克利研究人员敏锐地观察到,真正的AI突破不是来自更大的模型,而是来自更智能的系统组合。早期部署已经展现出这一范式的变革潜力:
2025年6月5日,新泽西理工学院的研究团队对这一新兴领域进行了迄今为止最全面的梳理,从 120多项 同行评审和产业研究中提炼出CAIS的核心架构和实践指南。
当前AI应用开发面临着五大核心问题,这项CAIS综述研究正是为了系统性地解决这些问题:
面对层出不穷的RAG方案、Agent框架和多模态模型,开发者往往不知道如何选择最适合的技术组合,缺乏统一的架构指导。
不同AI组件之间的接口不统一、数据格式不兼容,导致系统集成成本居高不下。
传统的单模型评估方法无法衡量复合系统的真实能力,缺乏科学的多维度评估体系。
很多系统在MVP阶段表现良好,但面临用户增长时却遭遇性能瓶颈和架构重构的痛苦。
虽然各种技术层出不穷,但缺乏系统性的设计模式和工程指南。
这项研究通过对120多项前沿工作的深度分析,为开发者提供了一套完整的CAIS理论框架和实践方法论。
当我们为GPT-4、Claude、Gemini的亮眼表现而惊叹时,实际产品开发却让我们清醒地认识到它们的局限性:
这三重困境推动着AI社区寻找新的解决方案,而CAIS正是这种探索的结晶。
CAIS代表的不仅是技术升级,更是架构哲学的根本转变。传统思路试图打造一个"万能选手"来解决所有问题,而CAIS则选择让LLM充当"指挥家",协调各种专业化组件形成强大的AI交响乐团。
Berkeley研究院将这种趋势精炼为一个数学表达:
CompoundAISystem = f(L, C, D)
这个公式虽然简洁,却是整个CAIS理论的核心:
这三个要素缺一不可,它们的有机组合决定了系统的最终能力边界,体现了从单点突破到系统性能力提升的设计哲学。
检索增强生成(RAG)是CAIS中最成熟的技术之一,它的核心思想是为LLM配备一个强大的"外部记忆库"。整个流程分为三个关键阶段:
这种设计让LLM能够访问实时、准确的外部信息,就像给大脑装上了一个可以随时查阅的图书馆。
图1:检索增强生成(RAG)系统的分类体系。该图展示了RAG系统的三个核心模块:检索器、生成器和RAG设计,以及它们之间的关系。
RAG系统的检索器有五种主要类型,每种都有其独特的优势:
稀疏检索器基于关键词精确匹配,在处理专业术语查询时表现优异;密集检索器使用BERT等模型捕获语义相似性,能理解同义词和上下文含义;图检索器利用知识图谱的结构化信息,通过节点和边的遍历找到关联知识。混合检索器结合了稀疏和密集方法的优点,而最新的"LLM作为检索器"直接让大模型根据查询生成相关知识,这种方法正在快速发展。
现代RAG系统采用三种先进的设计模式来提升性能:
通过多轮检索-生成循环不断精炼结果,就像科研人员反复查阅文献完善论文。
将复杂查询分解为简单子问题,逐层解决后再整合答案。
最为智能的模式,系统能动态判断何时需要检索、检索什么内容,甚至对自己的输出进行批判性评估。
这些模式让RAG系统具备了类似人类专家的研究能力。
图2:LLM Agent的结构化概览。该图展示了LLM Agent的三个维度:应用场景(如通用型、具身型)、Agent框架(单Agent和多Agent架构)以及Agent机制(系统编排、推理循环和工具使用)。
LLM Agent的应用场景可以分为三个层次的境界:
像瑞士军刀一样处理各种任务,Google的Gato就是典型代表,能用同一套参数处理 600多种 不同任务
进入物理或虚拟环境:
在特定领域展现专家级能力:
这种分层设计让开发者能够根据具体需求选择合适的Agent架构。
当单个Agent无法胜任复杂任务时,多Agent协作就成为必然选择:
协作框架让多个Agent通过角色分工和标准化操作流程共同工作,AgentVerse作为动态多Agent协作框架,能够根据任务需求动态调整团队组成和角色分工;辩论框架则让Agent扮演不同的论辩角色,通过结构化对话探索分歧观点,最终由裁判Agent做出决策;多Agent系统涵盖了所有涉及两个以上自主Agent的架构,它们可以通过共享消息池进行异步通信,也可以通过角色扮演实现专业化分工。这些框架为复杂AI应用提供了可扩展的解决方案。
Agent的智能体现在其交互推理循环中,这个循环包含四个关键环节:
这个循环让Agent具备了类似人类的学习和适应能力。
图3:多模态大语言模型(MLLM)的分类。该图详细展示了MLLM的架构组件(编码器、视觉投影器、融合模块、核心LLM)和融合策略(早期、晚期、跨模态注意力、混合融合),以及不同模态类型的技术路径。
多模态大语言模型(MLLM)通过四个核心组件实现了跨模态理解:
这种模块化设计让开发者能够根据具体需求灵活组合不同组件。
多模态融合策略的选择直接影响模型性能,每种策略都有其适用场景:
早期融合在输入阶段就整合不同模态的信息,Gemini采用这种策略实现了紧密的跨模态交互;晚期融合保留各模态独立的处理路径,在最终决策阶段才整合信息,Woodpecker框架通过这种方式确保了文本与图像内容的一致性;跨模态注意力融合让不同模态在整个处理过程中持续交互,BLIVA使用这种策略实现了指令感知的视觉特征提取。混合融合结合多种策略的优势,KOSMOS-2通过这种方法实现了短语定位和多模态推理的统一。
MLLM在不同模态上的技术实现各有特色,为开发者提供了丰富的选择:
图像处理主要依赖CLIP、ViT、BLIP等成熟技术,通过对比学习建立图文对应关系;音频处理使用Whisper进行语音识别转录,WavLM提供通用的语音表示学习;视频处理需要同时建模时空信息,Flamingo通过Perceiver Resampler压缩视频帧,TimeSformer使用纯Transformer架构建模时空依赖;文档理解则分为OCR和OCR-free两条路线,Donut代表了后者的发展方向,能够直接从文档图像生成结构化输出。这些技术的组合为构建全能型AI助手奠定了基础。
图4:复合AI系统的编排框架。该图展示了系统编排的三个层次:结构层(分层/中央架构)、机制层(任务规划、模型通信、工具使用、内存管理、反馈循环)以及目标层(隐私安全、偏见控制、低延迟、成本效率)。
系统编排的结构层决定了整个CAIS的组织形式,主要有两种架构模式:
分层结构将复杂任务分解为子任务,通过树状层级实现模块化管理,MemGPT采用这种设计实现了类似操作系统的内存管理;中央结构则通过统一的管理中心协调各组件协作,PagedAttention使用中央调度器和分布式GPU工作节点实现高效的LLM服务。这两种结构各有优劣:分层结构具有良好的可扩展性和容错性,中央结构则在资源调度和一致性保证方面更有优势。选择哪种架构需要根据具体应用场景和性能要求来决定。
机制层定义了CAIS的具体运作方式,包含五个核心机制:
目标层体现了CAIS设计的核心价值追求,需要在多个目标间找到平衡:
评估CAIS需要针对不同维度建立专业化的评估体系,论文总结了四个核心维度的详细评估方法:
传统基准测试的局限性在CAIS时代变得更加突出,需要进行根本性的评估范式转变:
静态数据集已无法满足系统动态性测试需求,像WebArena这样的交互式评估环境成为新标准,它能测试Agent在真实Web环境中的导航和操作能力;单一准确率指标被多维度评估体系取代,需要同时考虑系统的延迟性能(平均API响应时间)、资源效率(缓存命中率)、可靠性(错误处理能力)和用户体验(任务完成率);组件级评估转向系统级整体评估,专门设计的基准如Long Range Arena测试长序列处理能力,ZeroSCROLLS评估长文本理解能力。这种转变反映了从优化单一模型性能到优化整体系统效能的思维升级,为CAIS的工程化部署提供了更科学的质量保证体系。
CAIS的多组件架构带来了前所未有的工程复杂性挑战:
组件集成需要处理不同模块间的API不匹配、数据格式不一致和错误传播问题,这些问题在单一模型中并不存在;调试和优化变得极其困难,因为错误可能出现在任何组件或组件间的交互中,需要建立完善的监控和诊断机制;部署复杂度大幅增加,需要协调多个模型的版本管理、资源分配和服务发现。这些挑战要求开发团队具备更强的系统设计能力和运维经验,也推动了相关工具链的发展。
随着CAIS规模的扩大,可扩展性瓶颈日益凸显,需要在多个层面寻求突破:
计算资源的高效调度成为关键,需要开发智能的负载均衡和资源管理算法;组件间通信的延迟和带宽限制需要通过优化通信协议和数据压缩技术来解决;系统架构需要支持水平扩展,允许动态添加或移除组件而不影响整体性能。分布式计算、边缘计算和专用硬件等技术为解决这些问题提供了新的可能性,但同时也带来了新的复杂性挑战。
对于正在开发Agent产品的工程师,建议采用渐进式演进策略:
首先构建基于单一LLM的MVP版本,验证核心功能和用户需求;然后根据发现的局限性逐步引入RAG、工具调用等CAIS组件,每次只添加一个新能力并充分验证;最后构建完整的多模态、多Agent系统,实现复杂场景的智能化处理。这种演进路径既能快速获得用户反馈,又能逐步积累系统复杂性管理的经验,降低技术风险。
在技术选型时需要重点考虑几个关键因素:
首先是组件的成熟度和生态支持,选择有活跃社区和丰富文档的技术栈能够降低开发成本;其次是系统的可扩展性设计,预留足够的架构弹性以应对未来需求变化;再次是性能与成本的平衡,根据实际业务需求选择合适的模型规模和部署方案;最后是安全与合规要求,特别是在处理敏感数据的场景中需要特别谨慎。这些考虑将帮助开发者构建既实用又可持续的CAIS产品。
LLM的"组装"时代已经到来,CAIS代表着AI系统架构的根本性变革。对于Agent产品开发者而言,这既是挑战也是机遇:
在这个关键节点,深入理解CAIS的核心原理和实践方法,将是决定产品成败的关键因素。
Reference:
论文:https://arxiv.org/abs/2506.04565
博客:https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/
文章来自于微信公众号“AI修猫Prompt”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0