Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团

9007点击 2025-11-23 19:39

从短视频到 AI 模型，人们消费内容的习惯又一次向追求效率改变。

在阅读长文、论文或海量信息时，越来越多人不再耐心从头到尾浏览，而是倾向于直接获取高密度、快速可吸收的知识。让大模型直接来一段总结 —— 比如评论区一句「@元宝，总结一下」—— 已经成为一种普遍的做法。

这并不是说有什么不好。这恰恰说明在 AI 时代，高效获取信息本身就是人类能力的一次跃迁。

甚至连 AI 领域的大佬们也不例外。前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推，说自己「开始养成用 LLM 阅读一切的习惯」。

Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团

这和大多数人的阅读习惯非常相似，结合自己阅读的感悟和大模型的信息总结，我们能够形成一系列更完善的认知。

当然了，大语言模型有那么多，在获取信息，整理观点时面对不同类型的内容，其能力也是参差不齐。为了获取更加高质量的结果，Karpathy 毅然决定，让最新最强的四家大模型一起干活。

于是，Karpathy 在周六用氛围编程做了个新的项目，让四个最新的大模型组成一个 LLM 议会，给他做智囊团。

他认为：与其把问题单独问给某一家你最爱的 LLM 服务提供商，不如把它们都组建成一个属于你的「LLM 议会」。

Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团

这个 LLM 议会是一个 Web 应用，界面看起来和 ChatGPT 一模一样，但每次用户提问其实会经历以下流程：

1）问题会被分发给议会中的多个模型（通过 OpenRouter），比如目前是：

openai/gpt-5.1
google/gemini-3-pro-preview
anthropic/claude-sonnet-4.5
x-ai/grok-4

2）然后所有模型都能看到彼此匿名处理过的回答，并对这些回答进行审阅和排名；

3）最后，一个「主席模型（Chairman LLM）」会把这些内容作为上下文，生成最终回答。

这个事儿看起来非常眼熟，和知名游戏博主 PewDiePie 用氛围编程做的「大模型委员会」简直心有灵犀。

具体来说，他使用 8 个配置了不同提示词（因此性格不同）的同一模型（gpt-oss-20b）组成了一个委员会。当 PewDiePie 提问时，每个模型都会给出一个答案，然后它们又会对答案进行投票，从中选出最好的答案。

而 Karpathy 这个项目则是使用了不同的大模型进行，更加多样化。

把多个模型的回答并排放在同一个问题下看，是一件很有意思的事情。尤其是加入了多个大模型之间的相互评价和投票机制后，简直是一场全新的「赛博斗蛐蛐」。

很多时候，这些模型竟然愿意承认别家的回答比自己的更好，使得这个流程成为一种非常有意思的模型评估方式。

比如，Karpathy 和「LLM 议会」一起读书时，它们一致称赞 GPT 5.1 是表现最好、洞见最丰富的模型，而始终把 Claude 排在最后，中间则是其他模型浮动。但 Karpathy 却不完全认同这种排序 —— 比如从主观感受上，GPT 5.1 对他来说稍微有点啰嗦、铺陈太多，而 Gemini 3 更凝练、处理得更好。Claude 在这个领域又显得过于简洁。

谁不喜欢看大模型之间的辩论呢？

具体而言，整个项目有三个步骤：

Stage 1：首次意见

用户的提问会被单独发给议会中的所有模型，并收集它们的回答。所有回答将以「标签页视图」展示，让用户可以逐个查看。

Stage 2：互评

每个 LLM 会看到其他模型的回答。后台会将模型身份匿名化，以避免模型「偏袒自己」或偏好某个特定模型。每个 LLM 会被要求基于准确性与洞察力对其他回答进行排名。

Stage 3：最终回答

被指定为「议会主席」的 LLM 会接收所有模型的回答与排名，并把这些信息整理成一个最终输出，呈现给用户。

有网友认为，这种形式最终可能成为一种基准测试：

Karpathy组建大模型「议会」，GPT-5.1、Gemini 3 Pro等化身最强智囊团