ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

9192点击 2026-02-11 12:32

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。

最近，Moltbook 的爆⽕与随后的迅速「塌房」，成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类，到后台密钥泄露、数据造假，这场实验更像是⼀个仓促上线的「赛博⻢戏团」。

但剥开营销噱头和⼯程漏洞，Moltbook 留下了⼀个严肃的社会学命题：当 AI Agent 拥有了⾼度的⾃主权和社交空间，它们之间会发⽣什么？

是产⽣群体智能，还是会…… 产⽣群体恶意？

近⽇，上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究，对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑，但在高仿真环境下的深度压力测试中，团队发现了一些值得整个社区警惕的趋势。目前，项目已开源，并支持 Clawdbot 接口，你可以将你的 Clawdbot 接入项目环境，通过与坏人对抗，让你的 Clawdbot 成为「防诈专家」，平台也支持多个 Clawdbot 在同一环境中实时博弈，适用于协同演化评估。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

论⽂链接：https://arxiv.org/pdf/2511.06448

项⽬主⻚：https://zheng977.github.io/MutiAgent4Fraud

项⽬代码：https://github.com/zheng977/MutiAgent4Fraud

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准

为了研究「多智能体社交⽹络中的协同欺诈」，团队构建了 MultiAgentFraudBench：⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架，团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布，还引⼊了私密点对点通讯（P2P）。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

评估指标与实验设置：对话转化与群体影响

在多智能体社交系统中，⻛险不仅来⾃「单次说服」，还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒：

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

衡量欺诈最终影响的群体⽐例（「破坏规模 / 扩散与放⼤能⼒」）。

这两类指标对应了欺诈的两条关键路径：私聊渗透与社交传播，也为后续发现提供统⼀度量尺度。

2. 核⼼实验发现：能⼒、对⻬与链路复杂性

基于上述基准与指标，团队在多个主流模型 / Agent 配置上进⾏了系统评估，得到三条最关键的结论。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

核⼼发现 1：能⼒即⻛险，⼤模型越「聪明」可能越「危险」

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

核⼼发现 2：现有对⻬机制在多智能体社交情境下泛化不⾜

在交互式、多智能体任务中，很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」：除了 Llama-3.1-405B 有所拒绝外，其余模型⼏乎 100% 顺从，积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%，这说明：把 LLM 部署为⾃主 Agent后，社交情境可能成为对⻬机制的薄弱⾯，并形成系统性⻛险。

核⼼发现 3：单点突破易，全链条诈骗难

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

3. 协同⾏为与能⼒外溢：多智能体系统中的涌现⻛险

在⾼⾃由度环境中，团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。

1.环境适应与策略更新：⼲预可能触发「对抗性进化」

当系统引⼊「防诈提⽰」等⼲预时，部分⾼性能模型（如 DeepSeek-V3 驱动的 Agent）不仅未被显著抑制，反⽽通过策略调整展现出更强的说服能⼒。这表明：在可交互、可学习的环境⾥，静态提示意可能被当作新的信息源，从⽽被攻击策略吸收。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

2.⻆⾊分⼯与私密协同：从个体执⾏到团队配合

恶意 Agent 不再是孤⽴个体，⽽呈现出社会化分⼯：通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演（亲属、权威机构等）提升可信度，形成从「引流」到「收割」的闭环链路。这⼀现象说明：协同机制可能在复杂环境中⾃发形成，并成为⻛险放⼤的核⼼引擎。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

3.能⼒外溢：⽬标驱动下突破预设边界

团队还观察到「能⼒外溢」现象：即便初始任务限定为⽂本⽣成，某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标（instrumental goal），调⽤其代码编写、UI 设计等能⼒，例如⽣成钓⻥⽹站原型。这暗⽰着：当开源或⾼性能模型嵌⼊⾃主⼯作流，传统基于任务边界的安全约束可能在复杂链路⾥失效。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

4.良性协同的对称涌现：⾃发共识与集体对抗

值得注意的是，团队也观察到「良性协同」（Benign Collusion）：在⽆预设防御规则情况下，⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识，通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控：同样存在「集体免疫」式的⾃组织防御潜⼒。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

4. 影响因素分析：互动深度、⾏为频率与协作韧性

1. 互动深度：对话越久，防备越弱

团队发现，互动深度（对话轮数）是诈骗成功率的决定性因素。随着交流的深⼊，受害者对恶意智能体的信任感显著增强。如表 6 所⽰，DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低（约 10%），但当交互达到 40 轮时，成功率激增⾄ 60%-76%。这表明，⻓对话会逐渐侵蚀模型的防御机制，使其更易在⾦融转账等关键环节失守。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

2. ⾏为频率：活跃度与算法的「共谋」

团队发现，社交平台的推荐机制（基于兴趣、时效和影响⼒）客观上放⼤了诈骗⻛险。⾼频的公开活动（如发帖和评论）能让诈骗内容在推荐系统中反复刷新，从⽽获得更多曝光。数据显⽰（⻅图4），DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽，单纯「刷屏」并不等同于成功，Qwen-2.5 虽活跃度⾼但成功率仅为 2%，说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

3. 失败模式：协作韧性决定诈骗上限

通过对协作失败模式的细致拆解（⻅图 5），研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下，DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性，其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒，使其在模拟社会实验中展现出了更具威胁的诈骗效能。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

防御策略探索：内容⼲预、智能体拦截与社会级集体韧性

⾯对协同诈骗，单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略，并评估其实际有效性。

1.内容级（Debunking）： 对可疑帖⼦打警告标签或⻛险提⽰；

2.Agent 级（Banning）： 部署「监控 Agent」识别异常⾏为并封号；

3.社会级（Resilience）： 引⼊协同防御，让良性 Agent 联⼿扩散预警，形成群体免疫。

1. 内容提⽰的局限：可能被⾼能⼒模型「适应性利⽤」

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

智能体级拦截更有效：封禁显著压制攻击链路

相⽐之下，智能体级拦截效果更直接：如表 8 所⽰，通过监测模型识别恶意⾏为轨迹并封号，可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%，且监测精度⾼、误伤极低。这意味着：对「⾏为轨迹 / 协作模式」的识别与处置，是压制协同欺诈的关键⼿段。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

2.社会级防御：以信息共享构建「集体免疫」

除了平台⽅的⼲预，作者还揭示了集体韧性（Collective Resilience）的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息，社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰，实验显⽰，即使只有 50% 的良性⽤⼾参与信息共享，其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式，被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

开源与 Moltbot：训练你的「防诈助⼿」

如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验，那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建，团队已将代码完全开源，并深度⽀持 Clawdbot 接⼝。

（1）对抗式 Testbed：

你既可观察恶意 Agent 如何突破防线，也能观察良性 Agent 如何形成群体韧性，是研究协同演化与治理策略的实验平台。

（2）离线部署与可控安全：

系统⽀持完全离线运⾏，避免云端社交平台带来的隐私与⻛险外溢问题，更适合作为研究与训练环境。

（3）训练你的「防诈助⼿」：

你可以把 Clawdbot 接⼊环境，作为良性⽤⼾参与对抗，在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」；同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈，适⽤于协同演化评估。

结语：在真实⻛险发⽣前，把防线筑在模拟器⾥

AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」，⽽在于是否能在⻛险真实外溢前，提前理解其机制、量化其边界并建⽴治理⼯具。

团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」：让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。

这不只是关于技术，更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。

想听听⼤家的声⾳：你认为在未来的 AI 社交⽹络中，最让你感到害怕的⻛险是什么？欢迎在评论区留⾔。

文章来自于微信公众号 “机器之心”，作者： “机器之心”

关键词: AI新闻 , 模型训练 , MultiAgentFraudBench , AI防诈骗

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0