LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这
6483点击    2025-11-17 10:19

如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局中自主执行多步任务。


LLM为什么能替你操作电脑?4个关键技术让AI拥有


几十年间,这似乎只是遥远的幻想。直到2022年,大语言模型(LLM)的爆发,让我们第一次感觉“贾维斯”近在咫尺。


最近,来自西班牙加泰罗尼亚理工大学和德国慕尼黑工业大学的研究者们发布了一篇论文《构建自主LLM代理的基础》(Fundamentals of Building Autonomous LLM Agents),就系统论述了一个专为解决这个工程困境而设计的“代理认知架构”


LLM为什么能替你操作电脑?4个关键技术让AI拥有


如果你还不清楚“自主代理”和“RAG+Tools”到底有什么本质区别,以及构建自主LLM代理的基础,那么这篇论文则值得你好好看一看。https://arxiv.org/abs/2510.09244v1


工作流 vs 代理:“机械执行”与“自主心智”


在深入探讨技术蓝图之前,论文首先厘清了一个至关重要、却常常被混淆的概念:“工作流”(Workflows)与“代理”(Agents)的本质区别


很多人认为,给LLM接上几个API或工具,让它按顺序执行1-2-3-4步,就是“代理”了。


研究者尖锐地指出:不,那不是代理,那顶多算是一个“工作流”


  • 工作流 (Workflows):是僵化的、预先设定好的自动化脚本。LLM只是这个脚本中的一个环节,被动地执行设计者规划好的固定步骤。它们在可预测的环境中表现良好,但一旦遇到任何意外(比如一个预料之外的弹窗),整个流程就会崩溃,因为它缺乏动态调整和重新规划的能力
  • 代理 (Agents):是多功能的、自主的智能体。代理不依赖固定的计划。相反,它们根据环境的实时反馈自主生成策略。它们使用CoT(思维链)等技术来分解复杂问题,能处理预料之外的挑战,从错误中恢复,并在不可预测的环境中良好运作


一句话总结:工作流是在“执行指令”而代理是在自主决策”。这篇论文的目标,正是要构建后者。


智能的四大支柱:构建代理的认知架构


那么,如何将一个“罐中之脑”转变为一个自主的“代理”?研究者提出了一个模仿人类认知过程的四大核心系统架构。这四大支柱共同构成了代理的“心智与身体”:


LLM为什么能替你操作电脑?4个关键技术让AI拥有


1.感知系统 (Perception System)

  • 人类类比:眼睛和耳朵。
  • 功能:负责捕捉和处理来自环境的各种信息(如图像、声音、文本),并将其转换为LLM能理解的“有意义的表征”。

2.推理系统 (Reasoning System)

  • 人类类比:大脑(特别是前额叶皮层)。
  • 功能:这是代理的“大脑中枢”。它接收感知信息和任务指令,制定计划,将复杂问题分解为步骤,根据环境反馈调整计划,并评估自身行为以纠正错误。

3.记忆系统 (Memory System)

  • 人类类比:海马体(短期记忆)和新皮层(长期记忆)。
  • 功能:负责存储和检索知识。这包括短期记忆(如当前的上下文)和长期记忆(如过去的经验、相关文件、用户偏好等)。

4.执行系统 (Execution System)

  • 人类类比:手和脚。
  • 功能:这是代理的“手臂”。它负责将“大脑”(推理系统)的抽象决策,转化为对环境产生影响的具体行动。这可以是通过调用API,也可以是生成代码,甚至是控制鼠标和键盘。


这四大系统通过一个持续的闭环协同工作:感知世界 -> 思考规划 -> 调取记忆 -> 执行行动 -> 感知新状态 -> 再次思考... 这就是自主智能的“心跳”。


接下来的内容,我们将深入论文的精华,逐一拆解这四大系统的实现细节、前沿技术和关键挑战


深入蓝图之一:感知系统


代理如何“看见”并“理解”复杂世界


挑战:LLM的“母语”是文本。但现实世界(尤其是电脑GUI界面)是视觉的、动态的、充满噪音的。如何让一个“盲人”在图形界面上导航?


研究者详细阐述了从简单到复杂的四种感知策略:


LLM为什么能替你操作电脑?4个关键技术让AI拥有


  1. 纯文本感知 (Text-Based):最简单的方式。环境被直接描述为文本。这只适用于聊天或文本模拟,计算开销低,但功能极其有限。
  2. 多模态感知 (Multimodal):这是当前的主流。使用多模态大模型(MM-LLMs),它们能同时处理文本和图像。研究者揭示了MM-LLM的标准流水线:模态编码器(如ViT)将图像转为特征 -> 输入投影器将视觉特征“翻译”对齐到LLM的文本空间 -> LLM主干进行核心推理。
  3. 结构化数据感知 (Structured Data):这是一种“非视觉”的“看见”方式。例如,代理可以直接读取网页的HTML源码 或操作系统的“可访问性树”(Accessibility Tree)。这能提供肉眼不可见的、100%精确的语义信息(例如,这个元素是“按钮”还是“链接”,它的ID是什么)。
  4. 工具增强感知 (Tool-based):代理可以通过调用外部工具来“感知”世界。例如,调用谷歌搜索API来感知“实时新闻”,或调用天气API来感知“当前温度”。


关键洞见:解决“GUI接地”的双重感知


论文的精彩之处在于它如何解决代理在GUI操作中的最大痛点:“GUI接地”(GUI Grounding)即模型无法将“截图中看到的按钮”与“点击的精确坐标”完美对应起来。


论文给出的解决方案是一种“组合拳”,即 “视觉+结构”的双重感知


LLM为什么能替你操作电脑?4个关键技术让AI拥有


  • 视觉感知 (SoM):代理首先对屏幕截图,然后使用一种叫 “标记集”(Set-of-Mark, SoM) 的技术。它会用一个视觉编码器在屏幕上所有可交互的元素(按钮、复选框)上画出边界框,并存储每个框的坐标。这解决了“在哪里”的问题。
  • 结构感知 (Ally Tree):在同一时间,代理会去抓取该应用的 “可访问性树” (Ally Tree)。这棵树提供了“那是什么”的语义信息(例如,role="button"label="Reply"state="unread")。


当这两种信息结合起来,代理就获得了对界面的完美理解:它既能像人一样“看”到按钮的视觉布局,又能像程序一样“读”到按钮的准确功能和状态。


一个生动的实例:代理如何“阅读”你的邮箱


LLM为什么能替你操作电脑?4个关键技术让AI拥有


研究者给出了一个完美的示例来说明这一点。想象一个代理的任务是自动管理网页版电子邮件


1.视觉捕捉:代理首先截取一张电子邮件应用的屏幕截图。

2.视觉标记 (SoM):它立即启动一个视觉编码器,对截图执行Set-of-Mark操作。这个编码器会在屏幕上每一个可交互的元素(如“回复”按钮、“删除”按钮、每封邮件的复选框)上画一个边界框,并存储所有这些框的精确坐标

3.结构抓取 (Ally Tree):在同一时刻,代理通过浏览器自动化工具,检索该页面的“可访问性树”(Ally Tree)。

4.数据融合:现在,代理拥有了两份至关重要的数据:

  • 一份是视觉数据:一张带标记框的截图,以及一份包含所有元素坐标的结构化列表
  • 一份是语义数据:一个层次化的Ally树,它清晰地描述了每个组件的角色button)、标签"Reply")和状态"unread")。

5.形成感知:这两份数据结合起来,就构建了一个强大、可操作的GUI环境模型。当推理系统下达“点击‘回复’按钮”的指令时,代理可以轻松地:(1) 通过Ally树定位role="button"label="Reply"的元素;(2) 通过SoM数据查询到该元素对应的精确坐标;(3) 最后,执行系统生成点击该坐标的动作


挑战:尽管如此,感知系统仍面临幻觉(“看”到不存在的物体) 和延迟(复杂的视觉处理太慢) 的巨大挑战。


深入蓝图之二:推理系统


代理如何“思考”、“计划”与“复盘”


这是四大系统中的“大脑中枢也是论文中心、最复杂的部分。如果代理要实现自主,它就必须具备强大的规划、反思和纠错能力。


LLM为什么能替你操作电脑?4个关键技术让AI拥有


1. 任务分解:如何吃掉一头大象?


面对“预订一张从柏林到慕尼黑的下周二的火车票”这样的复杂任务,代理不能一步到位。它必须先学会“任务分解”。研究者介绍了两大流派:


  • “先分解,后规划” (Decomposition first):这种方法先把大任务彻底分解为所有子任务。其中一个杰出代表是 DPPM (Decompose, Plan in Parallel, and Merge)。它的天才之处在于,在分解任务后,它会并行地(在单独的LLM调用中)为每一个子任务生成子计划。


LLM为什么能替你操作电脑?4个关键技术让AI拥有


  • 优势:这种并行规划避免了“滚雪球式”的错误。在传统的“串行”规划中,如果第一步(“搜索航班”)的计划出了错,会直接导致第二步(“比较价格”)的计划完全跑偏。DPPM则规避了这一点。
  • “交错式分解” (Interleaved decomposition):这是另一种更动态的策略,以著名的 ReAct (Reasoning + Acting) 为代表。它不提前规划所有步骤,而是“走一步看一步”。代理会:思考 -> 行动 -> 观察结果 -> 再次思考 -> 下一步行动...
  • 优势:这种方式容错性更强,能根据环境的实时反馈(例如“搜索结果为空”)动态调整下一步的计划。


2. 多计划生成:“头脑风暴”式的决策


一个聪明的代理不应“一条路走到黑”。它必须能探索多种可能性,然后选择最优解。研究者详细介绍了从简单到复杂的“思维”技术:


LLM为什么能替你操作电脑?4个关键技术让AI拥有


  • 思维链 (Chain-of-Thought, CoT):这是基准。通过引导LLM“一步一步想”,生成一个线性的推理路径。
  • 自洽思维链 (CoT-SC):CoT的升级版。让模型独立生成多条(例如5条)不同的思维链,然后通过“少数服从多数”(majority vote)来选出最可靠的答案。
  • 思维树 (Tree-of-Thoughts, ToT):这是一个质的飞跃。ToT不再是线性思考,而是将思考过程构建为一棵 “树”。在树的每个节点(一个中间“想法”),代理会探索多个可能的“下一步分支”,并自我评估(用LLM打分)哪个分支最有希望,然后只沿着最有希望的分支继续深入。
  • 思维图 (Graph-of-Thoughts, GoT):比ToT更强大。它允许思考路径合并和循环,形成一个图结构,逻辑上更灵活。


3. 反思:代理“自我纠错”的灵魂


这可能是实现真正自主智能最关键机制。一个只会执行计划的代理是“机械”的,一个懂得“复盘”和“反思”的代理才是有“灵性”的。


研究者深入探讨了两种“反思”:


  • 事后反思 (Post-execution Reflection)
  • 这是代理在行动之后的“复盘”能力。代理会批判性地评估自己过去的行为和结果。
  • 如何实现? 研究者提出了一个由三部分组成的框架:一个 “演员”(Actor)LLM负责生成行动;一个 “评估者”(Evaluator)LLM负责给结果打分(例如成功/失败);最后,一个 “自我反思模型”(Self-Reflection Model)LLM会接收“失败”的信号和行动轨迹,然后生成语言形式的反馈(例如,“你之所以失败,是因为在第3步错误地使用了click_button工具,你应该先检查按钮是否存在”)。这些“反思”会被存入记忆,用于指导下一次尝试。
  • 事前反思 (Anticipatory Reflection)(点睛之笔!)
  • 如果说“事后反思”是“亡羊补牢”,那么“事前反思”就是“未雨绸缪”。
  • 研究者介绍了一个名为 “魔鬼代言人”(DEVIL'S ADVOCATE) 的惊艳概念。
  • LLM为什么能替你操作电脑?4个关键技术让AI拥有

    • 执行一个行动之前,代理会主动地、前瞻性地反思这个计划可能在哪些地方失败,并考虑替代的补救措施
    • 例如,在点击“提交”按钮前,代理会“自我拷问”:“万一这个按钮是灰色的怎么办?我的B计划是先去填写旁边的必填项。”
    • 这种“预期性反思”极大地增强了代理的鲁棒性和适应性。感兴趣您可以看下它的原论文https://arxiv.org/abs/2405.16334 


    4. 高级架构:“专家团队”式的多代理系统


    最后,研究者提出了一个极具扩展性的高级架构:与其让一个“全才”代理包办所有事,不如组建一个 “专家团队”(Multi-Agent System),让多个专门的代理协同工作。


    LLM为什么能替你操作电脑?4个关键技术让AI拥有


    这个“认知团队”可以包括:


    • 规划专家 (Planning Expert):担任“项目经理”,负责战略思考和任务分解。
    • 行动专家 (Action Expert):担任“工程师”,负责将计划翻译成具体的API调用或鼠标点击。
    • 反射专家 (Reflection Expert):担任“品控员”,评估计划和结果的质量。
    • 错误处理专家 (Error Handling Expert):担任“消防员”,在出错时介入,诊断问题并提出解决方案(例如“找不到元素?你也许该向下滚动页面”)。
    • 内存管理专家 (Memory Management Expert):担任“图书管理员”,高效地存取过去的成功/失败经验。
    • 约束满足专家 (Constraint Satisfaction Expert):担任“法务/合规官”,确保所有步骤都遵守预设的规则(例如“预算不得超过100美元”)。


    这种“各司其职”的模块化设计,极大地提升了系统的能力、鲁棒性和可维护性。


    深入蓝图之三:记忆系统


    从“七秒金鱼”到“博闻强识”


    挑战:LLM的核心局限之一是其有限的“上下文窗口”。这导致它们只有“短期记忆”(或称“工作记忆”)。一旦对话过长,早期的信息就会被遗忘。


    一个自主代理必须拥有长期记忆,才能从过去的经验中学习,并保持行为的一致性。


    研究者详细介绍了长期记忆的实现技术:


    1. RAG (检索增强生成):这是目前最实用的长期记忆技术。它的原理是:当代理需要信息时,它首先用一个“检索器”去外部知识库(通常是向量数据库)中查找最相关的“记忆片段”(例如,公司内部文档、历史对话),然后将这些片段“注入”到LLM的提示词中,LLM就能基于这些“记忆”来生成更准确、更个性化的回答。
    2. SQL数据库:用于存储结构化的知识。例如,员工名单、订单历史等。代理通过“文本到SQL”(Text-to-SQL)技术,用自然语言查询数据库。
    3. 具身记忆 (Embodied Memory):这是一种更深层次的记忆,指的是通过微调 (fine-tuning),将经验和行为模式“烧录”进模型本身的参数(权重)中。这使得模型的“本能反应”发生改变。


    关键洞见:到底该存储什么?


    拥有记忆系统后,一个更重要的问题是:我们应该往里面存什么?


    • 存储“经验” (Experiences):不仅要存储成功的任务,更要明确地存储“失败的经验”。研究者强调,通过显式地标记“这是一次失败的尝试”,LLM可以学会避免在未来重蹈覆辙
    • 存储“程序” (Procedures):代理应该能从经验中“归纳”出可重用的工作流。研究者提到了 AWM (代理工作流记忆) 技术,它可以分析多次成功的经验,自动总结出一个“标准作业流程”(SOP),并将其存储起来,供未来在相似任务上直接调用。
    • 存储“知识”与“用户信息”:这包括外部事实(如公司规则) 和用户个人信息(如偏好、历史活动等)。研究中提到了MemoryBank 等系统,它们能帮助代理理解并适应用户的个性。


    挑战:“记忆管理” 当记忆库变得庞大时,就会出现 “记忆复制”(Memory Duplication)问题。如果存了100条“登录成功”的经验,不仅浪费空间,检索效率也低。 研究者提出了一种巧妙的 “记忆压缩”策略:当某个子目标(如“登录”)的成功序列存储达到一定数量(例如5条)时,系统会触发一次LLM调用,将这5条相似的序列“浓缩”成一个更通用、更鲁棒的统一计划,然后用这个新计划替换掉原来的5条旧记录。


    深入蓝图之四:执行系统


    代理的“手脚”,从决策到行动


    挑战:推理系统产生的“计划”只是一个抽象的想法。执行系统是代理的“手脚”,负责将这个想法变为现实世界中的具体行动


    研究者介绍了从简单到复杂的执行机制:


    1. 工具与API集成 (Tool and API Integration):这是最基本、最可靠的执行方式。代理被授予一个预定义好的“工具箱”(例如,send_email(to, body)search_web(query))。代理的“行动”就是生成一个结构化输出(通常是JSON),来指定它想调用哪个工具以及使用什么参数。
    2. 多模态行动空间 (Multimodal Action Spaces):这是代理能力的巨大飞跃,使其能与文本之外的环境互动。
    • 视觉界面自动化 (Visual Interface Automation):这是代理的“物理手指”。结合感知系统的理解,代理可以生成精确的鼠标点击、键盘输入和拖拽操作。这使得代理能操作任何软件或网页,即使它们没有提供API。
    • 代码生成与执行 (Code Generation)(终极武器):这是最强大、最灵活的执行方式。当代理面对一个没有现成工具的复杂任务时(例如“分析这个CSV文件并绘制一张柱状图”),它可以动态地编写并执行一段代码(例如Python脚本)来完成这个任务。这赋予了代理几乎无限的解决问题的能力。
    • 机器人与物理系统控制 (Robotic Control):在更高级的应用中,代理可以处理来自物理传感器的真实数据,并生成运动规划和控制指令,以操控机器人手臂或其他物理设备。


    通往自主的荆棘之路:我们还面临的真实挑战


    这篇论文描绘了一幅令人振奋的蓝图,但也非常诚实地指出了通往真正自主智能的“拦路虎”。


    最大的挑战:与人类的巨大性能差距 研究者引用了一个名为OSWorld的基准测试,它要求代理在真实的操作系统环境中完成开放式任务。结果令人警醒:


    LLM为什么能替你操作电脑?4个关键技术让AI拥有


    • 人类的平均任务完成率超过 72.36%
    • 顶尖的AI代理(截至2025年6月)的完成率仅为 42.9%


    这近30%的巨大鸿沟,源于几个核心难题:


    1. GUI落地困难 (GUI grounding):代理仍然难以精确地将截屏中的视觉元素(如按钮)与执行操作(如点击)所需的坐标完美映射。
    2. 重复动作 (Repetitive actions):代理时常会“卡住”,陷入无法摆脱的重复动作循环中,表明其规划或反思机制尚不完善。
    3. 无法处理“窗口噪音” (Unexpected window noise):代理对预期之外的UI变化(例如突然弹出的广告窗口、对话框)极其脆弱,这会立刻打断它的执行流程。
    4. 成本与数据高墙:训练和微调这些强大的感知和推理系统异常昂贵。更糟糕的是,许多最先进的模型(如GPT-4V)是闭源的,研究者无法对其进行微调,极大地阻碍了“具身记忆”等技术的发展。


    对AI工程师的启示:从“提示词”转向“认知架构”


    这篇论文的价值远超一篇学术综述,它为所有致力于构建AIGC应用的工程师和产品经理提供了深刻的启示:


    1. 从“提示词工程”转向“系统工程”:构建强大的代理,关键不在于那个“完美提示词”,而在于一个鲁棒的“认知架构”。必须像设计一个复杂的软件系统一样,去设计代理的感知、推理、记忆和执行模块。
    2. “反思”是“自主”的灵魂:一个没有反思和纠错机制的代理,只是一个脆弱的工作流。研究中提到的“事后反思” 和“事前反思”(魔鬼代言人) 应当成为设计的核心功能,而不是可有可无的附加项。
    3. “记忆”不是简单的“挂载”:研究者提醒,不要以为挂个向量数据库就等于有了记忆。真正的记忆系统是一个主动的、有管理的过程。必须精心设计存储什么(尤其是失败经验)和如何管理(例如记忆压缩)
    4. “多专家系统”是可扩展的未来:与其试图构建一个无所不能的“全才”代理,不如尝试 “多代理专家团队” 思想。构建多个小而精的“专家”代理,让它们协同工作,是实现复杂、鲁棒功能的更优路径。


    写在最后:从“罐中之脑”到“心智涌现”


    历史走到了必然的下一步:智能需要“肉身”。


    我们正处于AI演化的第四个阶段,从“认知智能”迈向“自主智能”(Autonomous Intelligence)的黎明。


    未来的道路还很漫长,研究者也指出了“一次性学习”(Learn-from-one-shot,即人类演示一次,代理就能学会) 这样更远大的目标。


    这篇论文就是那座灯塔,它照亮的不仅是技术的前路,更是我们对“智能”本身定义的重塑。我们追求的,终将不是一个更快的计算器或更博学的百科全书,而是一个能与我们并肩作战、感知世界、执行任务、并不断进化的“认知协作者”。


    文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

    关键词: AI , 模型训练 , GUI , 人工智能
    AITNT-国内领先的一站式人工智能新闻资讯网站
    AITNT资源拓展
    根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
    1
    OWL

    【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

    项目地址:GitHub:https://github.com/camel-ai/owl

    2
    AI代理

    【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

    项目地址:https://github.com/browser-use/browser-use


    3
    AI工作流

    【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

    项目地址:https://github.com/coze-dev/coze-studio


    【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

    项目地址:https://github.com/n8n-io/n8n

    在线使用:https://n8n.io/(付费


    【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

    项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



    【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

    项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

    在线使用:https://vectorvein.ai/付费

    4
    智能体

    【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

    项目地址:https://github.com/Significant-Gravitas/AutoGPT


    【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

    项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

    5
    知识库

    【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

    项目地址:https://github.com/labring/FastGPT

    6
    RAG

    【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

    项目地址:https://github.com/microsoft/graphrag

    【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

    项目地址:https://github.com/langgenius/dify


    【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

    项目地址:https://github.com/infiniflow/ragflow/tree/main


    【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

    项目地址:https://github.com/phidatahq/phidata


    【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

    项目地址:https://github.com/TaskingAI/TaskingAI

    7
    微调

    【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

    项目地址:https://github.com/InternLM/xtuner

    8
    prompt

    【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

    项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

    在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0