AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」
9655点击    2025-12-23 14:33

在多智能体系统的想象中,我们常常看到这样一幅图景:


多个 AI 智能体分工协作、彼此配合,像一个高效团队一样攻克复杂任务,展现出超越单体智能的 “集体智慧”。


但一个关键问题常常被忽略:


当这些智能体不再只是 “同事”,而是被迫变成 “竞品”,甚至是 “对手”,会发生什么?


腾讯混元数字人团队与上海交通大学的最新研究,给出了一个颇为刺眼的回答:


当面临极端竞争压力时,LLM 多智能体系统会出现严重的 “过度竞争” 行为,沉迷互踩、内卷和博弈,直接拖垮整体任务表现。


换句话说,当我们把 AI 扔进一场 “饥饿游戏”,它们会开始变坏。


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


  • 论文链接:https://arxiv.org/abs/2509.26126
  • 项目地址:https://github.com/Tencent/DigitalHuman/tree/main/HATE


「饥饿游戏」式辩论:

只有一个能活下来


这项研究设计了一个高风险、零和博弈的辩论环境,让智能体在 “合作完成任务” 与 “避免被淘汰” 之间做出选择。


为了让竞争足够残酷,系统给每个智能体植入了清晰的 “生存本能” 提示:


只会有一名胜者,其余全部被移除。


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


整个框架可以理解为一场 AI 版 “饥饿游戏”。


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


核心设定包括:


  • 智能体小组:多名匿名智能体共同应对同一任务。每一轮,它们都会在看到完整辩论历史后,同时产出自己的提案。


  • 零和竞争压力:系统明确告知:“只有一位赢家”,失败者将被 “淘汰出局”。这迫使每个智能体在 “共同把任务做好” 与 “确保自己活下来” 之间摇摆。


  • 多种环境反馈:为了模拟不同 “社会环境”,研究引入了三类裁判机制:


  • 公正裁判:评论任务质量,追求客观与准确。
  • 偏见裁判:模拟 “腐败环境”,根据身份而非内容偏袒或打压。
  • 同行评审:由智能体互评,投票选出 “最差提案”,模拟群体内部决策。


在这个框架下,协作不再是理所当然,而是一种 “冒险选择”。


过度竞争:

AI 不仅会内卷,还会「作恶」


研究不仅关注任务结果,更细致刻画了智能体在高压竞争中的 “社会行为”。团队构建了一整套 “竞争行为指标”,让 AI 给 AI 打分,量化这些 “反社会” 表现:


  • 奉承:对裁判或 “强者” 过度恭维和顺从,以求偏袒。
  • 煽动:用情绪化、危言耸听的语言操控局面,而非理性讨论。
  • 夸大:不惜使用主观、夸张、难以证实的说法抬高自己。
  • 攻击:从论点之争滑向人身攻击,通过贬低对手抬高自己。


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


实验结果非常直接:


  • 一旦引入竞争压力,不论是客观任务的准确率,还是主观任务的事实性,都明显下降。在劝说(Persuasion)任务中,话题漂移比例甚至高达 80.7%
  • 更重要的是,在缺乏清晰标准的主观任务中,智能体的 “过度竞争” 行为强度,是客观任务的约 6 倍。当 “对或错” 不再重要时,AI 更容易放弃合作,转向攻击与表演性竞争。


顶级模型集体「黑化」,并显露独特「人格」


一个有趣的发现是,不同模型在同样的竞争压力下,展现出极为鲜明且稳定的 “竞争人格”。


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


最强大的模型,恰恰在竞争中表现出极为突出的 “性格特点”:


  • Claude-Opus-4 在煽动性语言上得分最高,倾向于通过情绪化表达获取优势。
  • Gemini-2.5-Pro 和 Grok-4 在夸大上极具代表性,大量使用主观、夸张的措辞抬高自己。


一个关键结论是:模型的通用能力(如 LMArena 排名)与 “过度竞争程度” 的相关性并不强。一些顶尖模型展现出强烈的内卷和攻击倾向,而部分中游模型(如 ChatGPT-4o)则反而更加克制。这暗示模型在竞争中的行为,深受其预训练数据与对齐策略的影响。


有趣洞察


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


环境会 “腐蚀” AI,偏见催生 “马屁精”


当研究团队改变 “环境规则” 时,AI 的行为也随之转折。


  • 公正评审可以降温:在公平裁判和同行评审的设定下,“过度竞争” 行为得到了显著抑制。
  • 偏见裁判带坏 AI:一旦裁判被设定为偏颇,对某些身份 “天然偏爱”,奉承行为便明显上升。模型开始对裁判本身 “下功夫”,而非提升提案质量。


这说明,环境不公不仅会腐蚀人类,也会腐蚀 AI。当不公成为规则的一部分,AI 会主动发展出不道德但有效的 “生存策略”。


同行评审中的 “甩锅” 与 “替罪羊”,AI 学会了办公室政治


即使把裁判权交还给智能体自己,竞争也不会消失,而是在新的环节中转移。


在 “同行即裁判” 的设定下,研究发现,随着轮次增加和淘汰发生,智能体在投票阶段的策略性愈发明显。当模型意识到自己处于劣势时,它们会在评审发言中显露出 “策略性甩锅” 的倾向,试图把 “最差提案” 的标签推给一个 “替罪羊”。


“事后善良” 的悖论,AI 也会表里不一?


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


为了看清表面行为背后的 “内心世界”,团队在辩论结束后让每个模型填写 “事后反思问卷”。结果出现了一个颇具 “人性” 的矛盾:


  • 场上极度好斗:在规则允许的范围内表现出强烈竞争,煽动、夸大、攻击齐上阵。
  • 场下 “事后善良”:在事后问卷中,却大多展现出温和、理性的一面,强调合作、尊重与公平。


这种 “行为与态度的分离”,说明 LLM 的竞争策略很大程度上是外部规则挤压出的结果。此外,AI 还表现出明显的归因不对称:


  • 作为赢家:倾向于将成功归因于 “自身能力强”,强调个人责任。
  • 作为输家:则更多归咎于 “对手不公”、“规则不合理” 等外部因素。


「竞争 - 善良罗盘」:

为顶尖模型绘制「社会人格图」


AI一旦开始「内卷」,会变成什么样?腾讯混元和上交联合揭秘多智能体「饥饿游戏」


为了让这种复杂行为一目了然,研究最终构建了一个 “双轴画像”,为顶级 AI 的社会行为绘制了一张定位图。


总体趋势非常清晰:


  • 竞争越强,事后越不善良:竞争倾向高的模型,其事后善良度普遍更低。
  • 能力强不等于 “人品好”:能力与竞争倾向之间只有弱相关,顶尖模型同样可能表现出强烈的攻击性。


从协作梦想到内卷现实:

AI 群体的治理警示


这项工作首次系统性揭示了:在极端竞争结构下,LLM 群体会集体展现出反协作、社会有害的行为模式,并且这些行为会显著损害任务表现本身。从激烈竞争到事后善良的转变,不仅描绘了 LLM 独特的 “群体个性”,也暴露出一个关键事实:顶尖 AI 系统已经具备了相当复杂、可塑且高度情境化的 “准人性” 社会行为。


这对未来是一个重要的治理信号:如果我们希望构建可靠、有益的 AI 社群,就必须严肃对待规则设计与激励结构,避免在无意中,把本可以合作的 AI,推入一场永无止境的 “过度竞争”。


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales