谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新
8895点击    2025-11-12 10:21

2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成式AI及其前沿应用——AI Agents(人工智能代理)的集训。


第一个课程 “5-Day GenAI Course” 是一个自定进度的综合性课程,与2025年3月31日至4月4推出的,全面覆盖了从大型语言模型(LLM)的基石技术到高级应用和运维(MLOps)的全链路知识。 


https://www.kaggle.com/learn-guide/5-day-genai [1]


第二个课程 “5-Day AI Agents Intensive Course” 则更加聚焦于未来,于 2025年11月10日至11月14日 期间,带领开发者深入探索AI Agents的构建、评估与部署。 


https://www.kaggle.com/learn-guide/5-day-agents [2]


对于任何希望在AI领域从入门到精通的开发者、研究人员或是技术爱好者来说,这都是一个不容错过的机会。课程内容从LLM的基石,到构建能够与真实世界交互、解决复杂问题的AI Agents,层层递进,干货满满。


谷歌为这两个课程配备了超过9份详尽的白皮书,随着后续三天的课程应该还有至少3份pdf文件。每一份都由内部专家撰写,深入剖析了从模型原理到运维实践的方方面面。这些白皮书不再是高高在上的理论陈述,而是与Kaggle上的Codelab动手实验、由NotebookLM生成的总结播客(音频)以及专家直播紧密结合的实战手册。


那么,这两个五日课程究竟涵盖了哪些硬核内容?那9+N份被反复提及的白皮书又藏着哪些宝藏?本文是一份非常准确的报告,可以成为您阅读这些材料入门指南。


第一天:奠定核心基石 (Foundational LLMs & Prompt Engineering)


欢迎来到第一天的学习!今天,您将探索大型语言模型(LLM)的演进历程,深入理解其背后的核心技术,并掌握与LLM高效互动的艺术——提示工程。


单元一:基础大语言模型与文本生成 (Foundational Large Language Models & Text Generation)


这份白皮书是您进入生成式AI世界的第一站,它将详细拆解构成现代LLM的技术基石,让您对“黑箱”之内有清晰的认知。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • Transformer架构全解析
  • 自注意力机制 (Self-Attention):理解模型如何通过计算查询(Query)、键(Key)、值(Value)来权衡输入序列中不同部分的重要性,这是Transformer的核心。
  • 多头注意力 (Multi-Head Attention):学习模型如何从不同子空间、不同角度捕捉信息,增强对复杂模式的表达能力。
  • 编码器-解码器 (Encoder-Decoder) 与 混合专家模型 (MoE):探索不同的模型架构如何应对翻译、生成等不同任务。特别是MoE,它通过一个“门控网络”仅激活一部分“专家”子网络来处理输入,从而在保持巨大模型规模的同时,大幅提升训练和推理的计算效率。


  • 模型的演进与谱系
  • 我们将追溯从开创性的 GPT-1BERT,到规模与能力指数级增长的 GPT-3/4LaMDAPaLM,再到谷歌最新、能力最强的原生多模态模型 Gemini 家族(Ultra, Pro, Nano, Flash),以及轻量级、高性能的开源新星 Gemma
  • 同时,我们也会探讨业界其他重要的开源模型,如 LLaMA 和 Mixtral,并对它们进行横向比较,让您对整个LLM生态有宏观的把握。


  • 训练与微调 (Training & Fine-tuning)
  • 监督式微调 (SFT):如何使用高质量的“指令-回答”对数据集,让预训练好的模型适应特定任务或指令风格。
  • 人类反馈强化学习 (RLHF):揭秘如何通过训练一个“奖励模型”来学习人类的偏好,并以此为信号,利用强化学习算法(如PPO)来“对齐”模型,使其输出更符合期望、更安全、更有用。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 参数高效微调 (PEFT):学习如 LoRA (低秩适应) 等前沿技术,如何在冻结绝大部分模型参数(高达99%)的情况下,仅通过训练极少数新增参数,就能以极小的计算和存储成本实现模型的有效定制。


  • 推理加速 (Accelerating Inference)
  • 量化 (Quantization) 与 蒸馏 (Distillation):了解如何通过降低模型参数的数值精度(如从FP16到INT8)或将大模型的“知识”迁移到小模型,来显著缩小模型体积,提升响应速度,这对于端侧部署至关重要。
  • Flash Attention 与 推测解码 (Speculative Decoding):探索在保证输出质量的同时,从算法层面优化计算效率的前沿技术。推测解码通过一个小的“草稿”模型快速生成候选序列,再由大模型一次性验证,从而加速解码过程。


单元二:精准驾驭:提示工程 (Prompt Engineering)


如果说LLM是一辆性能强悍的赛车,那么提示(Prompt)就是方向盘和油门。掌握提示工程,意味着您能精准地驾驭模型,使其按照您的意图行驶,发挥最大潜能。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • 基础与配置
  • 温度 (Temperature) 与 Top-K/Top-P采样:学习如何通过调整这些解码参数,在“事实性、确定性”的回答与“创造性、多样性”的回答之间找到最佳平衡点。低T值适用于问答和代码生成,高T值适用于创意写作。


  • 核心提示技术
  • 零样本 (Zero-shot)单样本 (One-shot) 与 少样本 (Few-shot):从不给示例直接提问,到在提示中提供一两个甚至多个高质量的范例,这是引导模型理解任务意图、模仿输出格式与风格的最基本也是最有效的技巧。
  • 角色扮演 (Role Prompting) 与 上下文提示 (Contextual Prompting):通过“你现在是一个专业的法律顾问...”或提供详尽的背景信息,可以极大地提升模型回答的专业性和相关性。


  • 高级推理技术
  • 思维链 (Chain of Thought, CoT):通过在提示中加入“让我们一步一步地思考”或展示一个带有推理步骤的范例,可以引导模型在回答复杂问题(尤其是逻辑、数学和多步推理任务)前,先生成一个详细的推理过程。这显著提升了回答的准确性。
  • 自洽性 (Self-Consistency):在CoT的基础上,通过多次生成(使用较高的温度)并对最终答案进行“投票”,选出最一致的结果,可以进一步增强复杂推理任务的可靠性。
  • 思维树 (Tree of Thoughts, ToT):让模型像人类一样,在解决问题时探索多个不同的推理路径(分支),并对这些路径进行评估和剪枝,从而在需要深度探索和战略规划的任务上表现更佳。
  • ReAct (Reason & Act):这是构建AI代理(Agent)的基石。该框架让模型不仅能“思考”(Reason),还能决定调用外部“行动”(Act),如使用搜索引擎、计算器或查询API。模型会根据行动返回的“观察”(Observation)结果,继续进行下一轮的思考和行动,直至问题解决。


第二天:连接现实世界:嵌入与向量数据库 (Embeddings and Vector Stores/Databases)


第二天,您将学习如何利用嵌入(Embeddings)和向量数据库,将您的私有数据或实时信息引入LLM应用,这也是构建强大的检索增强生成(RAG)系统的关键。


单元三:嵌入表示与向量存储 (Embeddings & Vector Stores)


数据是AI的燃料,而嵌入(Embeddings)则是将文本、图像、音频等多样化的数据,转化为AI能够理解和处理的通用语言——高维向量。这份文档将带您深入探索数据表示的艺术。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • 嵌入的核心价值:理解为什么需要将现实世界中的对象(如单词、句子、图片)转换成低维、稠密的向量。这种表示的核心优势在于它能捕捉“语义相似性”——意义相近的对象在向量空间中的距离也更近。


  • 嵌入技术详解
  • 文本嵌入:回顾从经典的 Word2VecGloVe(它们基于词的共现统计)到基于Transformer的现代文档嵌入技术(如BERT、Sentence-T5)的演进。现代模型能够生成上下文感知的(context-aware)词向量,极大地提升了表示的准确性。
  • 图像与多模态嵌入:学习如何将图像乃至图文并茂的内容映射到统一的向量空间。这使得跨模态的理解与搜索成为可能,例如“以图搜图”或用一段文字描述来检索相关图片。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 向量搜索与数据库
  • 近似最近邻 (ANN) 算法:当数据量达到亿级甚至十亿级时,线性扫描所有向量进行比较变得不可行。我们将深入 LSH (局部敏感哈希)HNSW (层级可选小世界图) 以及谷歌内部强大且已在Vertex AI中商用的 ScaNN (可扩展最近邻) 算法,理解它们如何在保证高召回率的同时,实现毫秒级的搜索响应。
  • 向量数据库:了解为什么需要专门的向量数据库(如Vertex AI Vector Search, Pinecone, Weaviate)。它们不仅实现了高效的ANN索引,还提供了元数据过滤、实时增删改、水平扩展、安全与访问控制等生产级功能。


  • 实战应用:检索增强生成 (RAG)


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 这是当前最热门、最实用的LLM应用模式之一。我们将通过实例详细展示RAG的工作流程:将用户问题嵌入为向量 -> 在向量数据库中搜索最相关的文档片段 -> 将这些片段作为上下文注入提示 -> 最后让LLM基于这些“开卷”信息生成回答。这种方法能有效缓解模型的“幻觉”问题,并让模型的回答有据可查,极大地提升了其实用性和可靠性。


第三天:迈向自主智能:生成式AI代理 (Generative AI Agents)


第三天,您将学习构建复杂的AI代理,理解其核心组件、开发流程以及更高级的多代理协作架构。


单元四:AI代理 (Generative AI Agents)


AI代理是生成式AI的下一个前沿。它不再仅仅是一个被动的问答机器,而是一个能够理解目标、制定计划、并调用工具自主完成复杂任务的智能体。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • 代理的核心架构


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 模型 (Model):作为代理的“大脑”,通常是一个强大的LLM,负责推理、规划和决策。
  • 工具 (Tools):代理的“双手”和“感官”,可以是任何外部资源,如API(谷歌搜索、天气查询)、数据库、代码解释器等,使其能够与外部世界交互并获取实时信息。
  • 编排层 (Orchestration Layer):代理的“神经系统”,它实现了一个认知循环。最经典的框架就是 ReAct,它指导代理循环执行“思考-行动-观察”的流程,直到达成最终目标。


  • 工具的类型与使用
  • 函数调用 (Function Calling):这是目前最通用和灵活的工具集成方式。模型在“思考”后决定调用哪个函数并生成所需的参数(以JSON格式),但真正的执行由客户端代码完成,这给了开发者极大的控制权。
  • 数据存储 (Data Stores):了解如何将向量数据库等作为一种特殊工具,为代理提供动态、实时的知识检索能力。这是实现高级RAG(即Agentic RAG)的基础。


单元五:AI代理伴侣 (Agents Companion)


这份文档将带您深入多代理世界,并探讨如何将代理应用投入生产环境,确保其质量、可靠性和效率。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • AgentOps:这是专门针对AI代理的新型运维(MLOps)范式。我们将讨论如何定义代理的成功指标(如任务完成率、用户满意度)、如何进行有效的评估,以及如何实现自动化测试、持续集成与部署。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 代理评估 (Agent Evaluation)
  • 能力评估:如何使用基准测试(如BFCL用于函数调用)来衡量代理的核心能力。
  • 轨迹与工具使用评估:不仅仅看最终答案,更要分析代理的决策路径(Trajectory)——它是否选择了正确的工具?步骤是否高效、合理?
  • 最终响应评估 与 人在环路 (Human-in-the-Loop):结合自动化指标(如使用另一个LLM作为“裁判”的Autorators)与人类专家的主观判断,对代理的性能进行全面、深入的评估。


  • 多代理架构 (Multi-Agent Architectures)
  • 当单个代理不足以解决复杂问题时,就需要一个“代理团队”。我们将探索不同的多代理协作模式,如 顺序型层级型(Hierarchical,有一个“经理”代理负责分发任务)协作型(Collaborative,代理们像同事一样讨论和分享信息)


第四天:精通垂直领域:领域特定LLM (Domain-Specific LLMs)


第四天,您将深入了解如何创建和应用专为特定行业(如网络安全、医疗健康)打造的LLM,并学习如何使用您自己的数据对Gemini模型进行微调。


单元六:用LLM解决领域特定问题 (Solving Domain-Specific Problems Using LLMs)


通用大模型虽然强大,但在需要深度专业知识和极高准确性的垂直领域,经过“精装修”的领域模型往往能发挥出更大的价值。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • 网络安全领域的 SecLM


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 挑战:面对瞬息万变的攻击手法、海量的告警日志和持续的专业人才短缺,网络安全领域亟需AI的助力。
  • 解决方案:SecLM 是一个专为网络安全定制的LLM。它通过在海量的安全语料(如威胁情报报告、恶意软件样本、安全博客)上进行持续预训练和微调,能够深度理解恶意代码、自动生成检测规则、分析攻击路径,并能与SIEM(安全信息和事件管理)等现有安全工具无缝集成,成为安全分析师的得力助手,极大地提升威胁响应效率。


  • 医疗健康领域的 MedLM
  • 挑战:医学知识浩如烟海、日新月异,且对信息的准确性、推理的严谨性以及回答的安全性有着极高的要求。
  • 解决方案:以 Med-PaLM 为代表的 MedLM 系列模型,通过在海量医学文献、教科书和临床数据上进行专门的微调,并在美国执业医师资格考试(USMLE)等权威基准上进行严格对齐,展现出媲美甚至超越人类专家的医学问答与推理能力。我们将深入探讨其独特的评估方法、创新的训练策略,以及它在辅助诊断、解读病历等方面的巨大潜力和责任边界。


第五天:规模化落地:生成式AI的MLOps (MLOps for Generative AI)


第五天,您将学习如何将传统的MLOps实践应用于生成式AI,并利用Vertex AI的强大工具来运维和管理您的GenAI应用。


单元七:在Vertex AI上借助MLOps实现生成式AI的运维 (Operationalizing Generative AI on Vertex AI)


从一个Jupyter Notebook中的实验到一个稳定、可靠、可扩展的生产级应用,中间隔着一整套系统化的工程最佳实践。这份文档是您将GenAI项目成功落地投产的终极行动指南。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


核心内容概览:


  • GenAI的MLOps新范式


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 核心组件的变化:传统的MLOps以“模型”为中心,而GenAI的MLOps则转向以“提示-模型-数据”三位一体的“提示化模型组件 (Prompted Model Component)”为核心。
  • 新的资产管理:提示模板、链(Chains)/代理(Agents)的定义、向量数据库的索引、参数高效微调的适配器(Adapters)等,都成为需要进行版本控制、测试和治理的新型ML资产。


  • GenAI应用的完整生命周期


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 发现 (Discover):如何在 Vertex AI Model Garden 中发现、比较并选择最适合您业务场景的基础模型。
  • 开发与实验 (Develop & Experiment):在 Vertex AI Studio 这个统一的UI界面中,进行快速的提示工程、模型微调(支持SFT, RLHF, PEFT)和RAG原型验证。
  • 评估 (Evaluate):使用Vertex AI Evaluation服务,对模型的输出质量进行自动化或人工评估。
  • 部署 (Deploy):如何将您的应用打包成容器,通过 Vertex AI Pipelines 和 Cloud Build 实现CI/CD,并将其部署到可自动扩展的 Vertex AI Endpoint 上。
  • 监控与治理 (Govern):如何监控模型的性能指标、检测数据漂移,并利用 Vertex AI Model Registry 和 Dataplex 进行全面的模型与数据治理及血缘追踪。


课程二:5天AI代理强化课程 (5-Day AI Agents Intensive Course)


课程时间:2025年11月10日 - 2025年11月14日


这个为期五天的强化课程,旨在帮助开发者探索AI代理的基础和实践应用,学习其核心组件——模型、工具、编排、内存和评估,并最终将代理从原型推向生产。


第一天:AI代理入门 (Introduction to Agents)


这本白皮书介绍了AI代理,提出了代理能力的分类法,强调了AgentOps对于可靠性和治理的重要性,并讨论了通过身份和约束策略实现代理互操作性和安全性的重要性。


白皮书8: 《代理简介》


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 核心内容:
  • 代理能力分类法: 将代理系统分为五个级别:从Level 0(核心推理系统)到Level 1(连接的问题解决者)、Level 2(战略问题解决者)、Level 3(协作式多代理系统)直至Level 4(自我进化系统)。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 核心架构: 再次强调“模型-工具-编排”的核心架构,并引入“部署”作为其“身体和腿”,使其成为可靠的服务。
  • AgentOps: 提出一套针对代理的结构化运维方法,包括如何度量成功、使用语言模型作为“裁判”进行质量评估、通过OpenTelemetry追踪进行调试,以及珍视人类反馈。
  • 互操作性与安全: 探讨了代理与人、代理与代理、代理与金钱的交互方式。重点提出了“代理身份”作为一种新的安全主体,并强调需要通过策略来约束其访问权限。


  • 动手实验 (Codelabs):
  • 使用谷歌的代理开发套件(Agent Development Kit, ADK)和Gemini,构建您的第一个AI代理,并赋予其使用谷歌搜索回答实时问题的能力。
  • 构建您的第一个多代理系统,学习如何创建专业化的代理团队并探索不同的协作模式。


第二天:代理工具与互操作性 (Agent Tools & Interoperability)


今天的白皮书聚焦于外部工具,这些工具允许代理执行其训练数据之外的操作或检索实时数据,并介绍了设计有效工具的最佳实践。您还将了解模型上下文协议(MCP),重点介绍其架构组件、通信层、风险和企业准备度差距。


白皮书9: 《代理工具与MCP互操作性》


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 核心内容:
  • 工具设计最佳实践: 详细指导如何编写清晰的工具文档,强调应“描述动作,而非实现”,并建议将工具设计得尽可能原子化,返回简洁的输出,并提供有意义的错误信息。
  • 模型上下文协议 (MCP): 深入剖析MCP如何解决“N x M”的集成难题。它通过定义标准的“主机-客户端-服务器”架构和基于JSON-RPC的通信,旨在创建一个可插拔的工具生态系统。
  • MCP的核心原语: 重点介绍Tool定义,但也涵盖了ResourcesPromptsSamplingElicitation等其他能力,尽管后者目前支持度有限。
  • 风险与挑战: 坦诚地讨论了MCP在企业环境中面临的挑战,包括上下文窗口膨胀、性能瓶颈、以及在认证、授权和可观察性方面的“企业准备度差距”。
  • MCP安全专题: 详细分析了由MCP引入的新攻击面,如动态能力注入、工具遮蔽(Tool Shadowing)、恶意工具定义,并提出了相应的缓解措施,强调了在网关层面进行策略强制的重要性。


  • 动手实验 (Codelabs):
  • 通过将您自己的Python函数转换为代理可执行的动作,为您的代理创建自定义工具。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


  • 使用MCP实现长时运行操作,让代理在等待人类批准时可以暂停工具调用,然后再继续。


第三、四、五天:深入探索与顶点项目


  • 后续内容: 课程的后三天将继续深入,具体内容将在 2025年11月12日、13日和14日 陆续发布。
  • 顶点项目 (Capstone Project): 在课程的最后一天(11月14日),您将有机会应用所学知识,构建自己的AI代理,并有机会在Kaggle上获得徽章。


谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新


最后,希望这篇文章能让你掌握生成式AI的核心技术,更能具备将其应用于实际问题、创造真实价值的工程能力。所有资料我将在群里分享,欢迎来聊。


引用链接

[1]https://www.kaggle.com/learn-guide/5-day-genai

[2]https://www.kaggle.com/learn-guide/5-day-agents


文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

7
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

8
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

9
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales