DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!
6238点击    2026-03-17 08:50

最近几年,大模型赛道好不热闹。


叫得上名字的几乎数都数不过来:从 GPT、Llama、Gemma、Mistral,到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等,新模型几乎以周更的速度出现。


但问题是,当架构创新越来越多时,理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一,即便是研究者,也很难快速看清一个模型究竟在哪些地方做出了关键改动。


如果把过去几年主流模型的架构放在一起,你会发现一个明显的空白:我们拥有大量模型,却缺少一张清晰的大模型架构图。


最近,AI 研究者 Sebastian Raschka 就尝试给了这样一张图,他将过去几年主流大模型的结构重新绘制,并整理成了一个在线图谱 「LLM Architecture Gallery」。


DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!


  • 原文地址:https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7b
  • GitHub 地址:https://github.com/rasbt/llm-architecture-gallery


根据 Raschka 介绍,该网站汇集了他此前两篇博客中的内容,这两篇博客分别为《The Big LLM Architecture Comparison》 和 《A Dream of Spring for Open-Weight LLMs》。


从「LLM Architecture Gallery」页面结构上看,这个图谱几乎像一张大模型名录。


这里汇集了大量近年来出现的主流模型,包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等多个系列,参数规模从几亿参数的小模型,一直延伸到千亿乃至万亿级模型。


DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!


点击任意模型即可链接到对应位置,比如,这里我们点击 DeepSeek R1,链接就跳转到相应的模型卡:


DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!


每一张模型卡都会展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息,让读者能够在同一套视觉框架下快速理解模型的结构组成。


DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!


不止 DeepSeek R1,像 Gemma、Llama 等一系列主流模型,也都被纳入这一图谱之中。用户只需点击对应模型名称,就可以进入该模型的专属页面,查看其完整架构示意图以及关键设计细节。


对于研究者而言,「LLM Architecture Gallery」相当于提供了一份可快速查阅的大模型架构索引,用户可以在一个页面中浏览和对比不同模型的设计思路,模型架构的关键创新点,从而更高效地理解技术演化路径,也为后续的研究和模型设计提供参考。


DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!


正如 AI 研究者 Andrej Karpathy 所评价的那样:「这简直就是一个创意、想法的资源库。」


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda