万字追问:鸡娃,还是躺平?大语言模型也有教育困境

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
万字追问:鸡娃,还是躺平?大语言模型也有教育困境
5560点击    2025-09-26 10:32

万字追问:鸡娃,还是躺平?大语言模型也有教育困境


在孩子的成长道路上,家长总是徘徊在两个极端:是该鸡娃式地安排好一切,让孩子每天都在补习班和题海里打转,还是该彻底放养,让他们自由探索,哪怕代价可能是沉迷游戏、天天躺平?


其实大语言模型的“教育”问题也差不多。研究者在训练和使用这些模型时,离不开提示词。这就像一份人生剧本,告诉模型“你是谁?”“你要做什么?”“你能做到哪里?”但问题是,提示词到底应该像家长一样,抓得紧、管得细;还是该放手,让它自己折腾?这就是生成式智能体模型*(Generative Agent-Based Model, GABM)面临的最大困境。


在操作上,GABM本质上是一个由提示(prompt)驱动的信息传导网络,其运行机制依赖于作为元指令的提示,形成一个“提示→组件行为→系统输出”的传导链 。


为什么我们要在意这件事?因为GABM并不是冷冰冰的技术实验,而是社会科学研究者的一个新工具。过去,学者们要研究人类行为,要么搞问卷调查,要么做小规模实验,要么用一些抽象的数学模型来推演。成本高,限制多,还经常被批评不够真实。现在,GABM提供了一个虚拟版的社会实验室:研究者能在电脑里创造出一群虚拟居民,给他们身份、记忆和目标,让他们互相交流、合作、冲突,然后观察会出现怎样的社会现象。


听起来是不是很像《模拟人生》?只不过研究者希望从中看到更严肃的问题:比如市场会不会出现价格联盟;一个城市在疫情中会不会爆发恐慌;一个社会会不会形成极化舆论。


万字追问:鸡娃,还是躺平?大语言模型也有教育困境


本文编译自Li, Z., & Wu, Q. (2025). Let It Go or Control It All? The Dilemma of Prompt Engineering in Generative Agent‐Based Models. System Dynamics Review, 41(3), e70008.


而这恰恰是麻烦的开始。研究者发现,如果在提示词里写得太细,就像逼着虚拟学生每天学习八小时、参加三门补习班,那他们的行为轨迹几乎注定,不会有任何意外。如果写得太模糊,又可能变成放养的孩子,整天无所事事,或者做出一些完全不合逻辑的举动。研究者最想看到的涌现现象,那些由简单规则互动产生的、出乎意料又合乎情理的复杂行为,就这样要么被剧本写死,要么被混乱淹没。


所以,GABM的提示词设计,本质上是一个关于“度”的问题。你既要给它足够的框架,让模拟结果不至于乱七八糟,又要给它足够的空间,让它能长出超出预期的行为。这也是为什么,Li and Wu (2025) 的论文会强调,提示词既可能是教育手段,也可能是紧箍咒。


为了破除这个困境,我们需要从这些虚拟居民是如何被创造出来开始。


身份(Profile):


你是谁,决定了你怎么看世界


在生成式智能体模型(GABM)里,“身份”是提示词设计的第一步,也是最关键的一步。它决定了一个虚拟居民的角色和性格,相当于为一场戏挑选演员并写下角色设定。没有身份,智能体就是一张白纸;一旦身份被赋予,它就会带着某种视角去理解世界、做出选择。


举个简单的例子:如果你告诉一个虚拟学生,“你是大学里的一名普通本科生”,他可能每天随机上课、聊天、刷视频,行为带有很大的不确定性。但如果你进一步规定,“你是一名立志考研的学霸,每天至少学习八小时,希望保持年级前5%的排名”,那么他的日常行为轨迹就几乎被锁定:图书馆、课堂、自习室三点一线,很少会有“意料之外”的行动。这就是身份设定的力量。


在学术研究中,身份的作用更为明显。比如 Hua et al.(2023)在模拟国际关系时,把不同国家设定为虚拟智能体,赋予它们“历史背景”“军事能力”“外交政策”等详细身份。这些身份就像国家的性格:如果一个国家被设定成“曾经受过侵略,因此对安全极度敏感”,那么它在模拟中的行为更可能是谨慎、保守甚至强硬的。再比如Park ,et al.(2023)在模拟一个虚拟小镇时,为居民写下了详细的职业、兴趣和人际关系。结果,这些虚拟居民会根据设定的身份开展互动,形成相对稳定的社交网络和行为模式。


身份(Profile)组件在生成式智能体模型(GABM)中确立了模拟智能体的基本身份、内在特征和行为倾向,是其所有行为建立的基础。该组件是所有智能体行为的起点,它决定了智能体如何感知信息、做出决策以及对模拟环境中的刺激做出反应。身份通过提供一个情境背景和个性框架来指导信息的解读与反应的生成 ,并为其他组件提供基础身份信息,从而引导记忆的形成、决策过程和行为倾向。


从研究者的角度来看,身份设计是一把双刃剑。一方面,详细的身份能让模拟更有现实感,更容易重现我们熟悉的社会现象。例如,如果我们要研究疫情下的防疫政策,就必须设定哪些居民是医生、哪些是小商贩、哪些是老人,否则模拟出来的结果很难映射到现实。另一方面,身份设定过于细致,就可能变成研究者写好的剧本。虚拟居民的一举一动,其实都在身份设定里被暗示甚至写死了。此时,我们看到的并不是社会互动的自然涌现,而是研究者设计的延伸*。


这种张力,正是过度控制的典型表现。过于模糊,模拟会失去方向;过于详细,结果就会缺乏惊喜和复杂性。它和教育里的“鸡娃”与“放养”何其相似:如果一个孩子的身份从小被设定为别人家的学霸,他几乎没有偏离轨道的自由;如果什么设定都没有,孩子可能就会沉迷游戏、虚度光阴。


因此,研究者必须时刻警惕:我们赋予虚拟居民的身份,究竟是在帮助他们更真实地模拟人类,还是在替他们写好了一出注定的戏?这不仅影响模拟结果的可信度,更关乎GABM作为科学方法的严肃性。


研究者通过三种主要方式对身份(Profile)组件进行过度控制,从而可能预先决定模拟结果 。(1)明确的角色和属性定义 :研究者通过提示词直接为智能体嵌入具体的角色、职业、人际关系或鲜明的个性标记 ;(2)受控的特质分布和分配 :研究者会有意地将特定的个性特质(如大五人格)分配给智能体,并在群体中系统地改变这些特质的分布 。例如,精心设计具有“极端整合、好奇、友好和敏感”等特质组合的智能体角色 ;(3)最后是人口统计、价值体系和信念框架的编码 :这涉及根据特定的人口统计数据构建智能体群体,或将预定义的价值体系、世界观或意识形态立场直接嵌入智能体档案中。


记忆(Memory):


你记得什么,决定了你能成为什么


如果身份回答了“你是谁”,那么记忆决定了“你会不会一以贯之”。一个智能体若没有记忆,就像一条只有三秒注意力的金鱼——转个身就忘了之前发生的事,行为完全缺乏连续性。而一旦有了记忆,它才能在当下的决策中带上过去的烙印,表现得更像一个真实的人。


在生成式智能体模型(GABM)中,记忆被分为两类:短期记忆(short-term memory)和长期记忆(long-term memory)。短期记忆更像是一段对话记录,帮助智能体保持上下文连续性。例如,一个虚拟居民在和朋友聊天时,如果没有短期记忆,他可能一句话前说“我喜欢喝咖啡”,下一句话就问“什么是咖啡?”;有了短期记忆,他才能延续话题,表现出基本的逻辑一致。长期记忆则更像人生经历的积累,影响着身份和行为的稳定性。比如,“你学过六年奥数”“你曾在疫情中失去亲人”,这样的长期记忆会深刻改变智能体的偏好和行动。


记忆(Memory)通过存储、检索和反思相关信息,使模拟智能体能够维持行为一致性并随时间发展演变。记忆系统通常包括用于处理即时上下文信息(如对话历史)的短期记忆,以及用于存储影响智能体身份和行为的持久性数据(如过往经验)的长期记忆。该组件的操作包括写入新信息、基于相关性(如使用关键词匹配或嵌入向量等技术)检索特定内容,以及通过反思过往经验来提炼见解和抽象概念。


记忆组件通过筛选来自“身份”组件的信息来决定保留内容,为“规划”组件提供决策所需的上下文数据,并在“行动”执行期间作为维持行为一致性的参考,从而与其他组件紧密互动。研究者通过提示(prompt)来设计信息处理的架构,例如规定信息如何被存储和构建、设计带有权重的检索算法以模拟人类的提取机制、直接向智能体提供被框定为“相关记忆”的特定信息,甚至操纵记忆的深度和持久性。


日常类比:考试复习与生活片段


要理解记忆的重要性,我们不妨从生活里找类比。短期记忆,比如你收到的短信验证码,在输入之后就已经抛之脑后。长期记忆则是你童年时的经历,尽管过后不能逐句还原当时的场景,但这些记忆会伴随你一生,直接或间接地影响你之后的决定。虚拟居民也是这样:如果研究者只给他们短期记忆,他们可能只会在当下保持做出某种特定的行为,而缺乏人格上的延续性;而一旦给他们长期记忆,他们就会逐渐表现出性格和习惯。


案例:小镇居民的“记忆档案”


要理解记忆的重要性,我们不妨从生活里找类比。短期记忆,比如你收到的短信验证码,在输入之后就已经抛之脑后。长期记忆则是你童年时的经历,尽管过后不能逐句还原当时的场景,但这些记忆会伴随你一生,直接或间接地影响你之后的决定。虚拟居民也是这样:如果研究者只给他们短期记忆,他们可能只会在当下保持做出某种特定的行为,而缺乏人格上的延续性;而一旦给他们长期记忆,他们就会逐渐表现出性格和习惯。


案例:疫情防控模拟


另一个例子来自Williams et al.(2023)的研究。他们在疫情模拟中,让居民根据记忆来调整行为。如果某个居民记得前几天报纸说“20% 的人感染”,那他就可能选择减少外出;如果他的长期记忆里写着“曾经因为轻信谣言买过假药”,那他未来面对防疫信息时就会更加谨慎。这些细节让模拟更接近人类社会的复杂性,也让研究结果更具启发性。


方法论困境:谁来决定你记得什么?


但问题也随之而来:虚拟居民的记忆究竟是谁决定的?在现实生活中,我们无法完全选择自己记得什么,有些片段会被忘掉,有些会深刻留痕。但在GABM中,研究者必须人为挑选哪些记忆被保留,哪些会被舍弃。比如,如果只保存“成绩好”的经历,就可能让一个虚拟学生表现得越来越自信;但如果同时保存“考试失败”的片段,他可能会表现出焦虑和不安。


这意味着,研究者在筛选记忆的时候,就已经在潜移默化地塑造模拟结果。记忆是教育的一部分,过度操控会让智能体变得像提线木偶,看似在自由思考,实则在重复研究者希望的轨迹。反之,如果完全不干预,智能体可能会生成一些毫无意义的碎片记忆,导致行为混乱。这正是“过度控制vs自发涌现”的另一种体现。


计划(Planning):思考决定行动


身份告诉我们“你是谁”,记忆决定了“你记得什么”。但只有到了计划这一环节,虚拟居民才真正开始“思考”该怎么做。这是生成式智能体模型(GABM)最具张力的部分:它既是研究者干预最多的地方,也是最能决定结果是否真实的地方。


在GABM中,计划并不等同于解一道题那么简单,而更像是一个虚拟大脑的思维方式。它需要把身份(你是谁)、记忆(你经历过什么)结合起来,然后转化为一条“接下来要做什么”的逻辑路径。正因如此,研究者在提示词中如何设计计划,几乎决定了模拟结果的性质。


计划(Planning)旨在融入体现智能体独特视角和情感反应的个性化思考过程。该组件的功能是通过综合来自“身份”组件的特征和来自“memory”组件的内容,来生成与情境相适应的行为意图和战略反应 。研究者通过提示(prompt)来植入决策逻辑,引导智能体根据其身份和记忆进行审议、制定策略并形成意图 。具体的规划方法包括“共情规划”(empathetic planning),即智能体在行动前推断和感知他人的行为与情感,以及“主观规划”(subjective planning),即决策与智能体预设的角色或身份保持一致,这两种方法常利用思维链(Chain-of-Thought, CoT)或内心独白等技术来实现 。计划组件通过汲取“身份”组件的特征来确定决策倾向,利用“记忆”组件中的过往经验来为决策提供信息,并最终生成指导模拟中行为输出的行动意图,从而与其他组件紧密互动 。


计划的几种方式


(1)结构化推理:像写标准答案一样思考


这是研究者最常用的方法。在提示词里,他们会要求虚拟居民分步骤推理,比如先分析利弊,再写出结论。这种方式的好处是,结果条理清晰,很容易和既有理论对接。例如,在 Hua et al.(2023)的战争模拟中,研究者让国家智能体必须先识别敌人和盟友,再根据列表做决策。结果是,国家的选择几乎都符合预设的逻辑路径,研究者得到了可解释性很强的结果。


但问题是,这种思维方式有点像学生写作文时被规定了“开头-主体-结尾”的框架。文章不会出错,但也很难出现惊喜。模拟出来的社会行为,往往是研究者希望看到的,而不是社会互动自然生成的。


(2)角色驱动推理:把动机写进剧本


另一种常见方法是直接赋予动机。例如,“作为医生,你必须把病人的健康放在首位”;“作为商人,你要追求利润最大化”。这种方式让行为结果更符合身份,但同时也大大降低了行为的多样性。


在Xie et al.(2024)的信任实验中,研究者让虚拟居民在做选择时写下内心独白,这些独白被设计成符合身份的主观信念。结果,居民的行为显得逼真,但背后其实是研究者提前写入了信念模板。这就像我们常说的带着剧本上台,表演固然自然,但自由发挥的空间几乎没有。


(3)逐步推理(CoT):思维留痕


近年来很流行的做法是要求虚拟居民“把思考过程写出来”。比如,在Akata et al.(2023)的博弈实验里,研究者让智能体必须“先预测对手可能的行为,再决定自己的出招”。这种强制性的推理轨迹,让行为结果更接近逻辑推理,而非凭直觉的选择。


问题在于,人类的很多决定并不是逐步计算出来的,而是依赖直觉和经验。比如,你不会在超市买一瓶水时,写下一份成本-收益-效用分析表。因此,虽然逐步推理提高了可解释性,却也让行为更理性化,削弱了人性化的偶然性。


(4)预设的策略与决策标准:在有限的框架中选择


有些研究甚至进一步把计划限制成几个选项,比如“合作、对抗、让步”,或者规定智能体必须用效用函数打分,再根据分数高低来决定。


在 EconAgent(Li, Gao, et al. 2024)的经济学模拟中,研究者让居民每季度进行一次反思,并根据效用函数调整消费与储蓄。这样一来,经济曲线的走势和既有理论高度吻合,但虚拟居民看上去更像是在解选择题,而不是在做真实生活中的模糊决策。


案例延展:不同计划方式如何塑造世界


  • 战争模拟(Hua et al. 2023):要求先识别敌友,再制定战略,结果是所有国家几乎必然形成阵营,战争逻辑被大大简化。


  • 信任实验(Xie et al. 2024):通过内心独白强化身份驱动,结果居民的行为更符合身份预设,但缺乏真实的信任动态。


  • 经济模拟(EconAgent, Li et al. 2024):通过固定反思机制,模拟结果像是写进剧本的经济学教材,而不是自然生成的复杂波动。


这些案例说明:计划不仅仅是一个思维过程,更是研究者控制模拟的关键入口。


方法论困境:思维的自由还是枷锁?


计划环节揭示了一个根本矛盾:


如果研究者把思维方式写得太详细,虚拟居民就会像按照解题步骤走的学生,结果条理清晰,却失去了复杂性。


如果研究者什么都不规定,虚拟居民可能会跑题,做出完全无关的决定,导致模拟失控。


这其实正是Li and Wu(2025)论文的核心观点:计划是最容易“过度控制”的地方。研究者既要避免虚拟居民变成木偶,又要防止他们陷入混乱。这种张力,与教育中的“鸡娃”与“放养”何其相似:一边是把人生写进计划书的孩子,另一边是完全无拘无束、可能迷失方向的孩子。


因此,计划不仅仅是技术细节,更是一个方法论上的考验。它迫使研究者不断追问:我们看到的社会现象,到底是虚拟居民在互动中自然生成的,还是研究者写好的剧本在上演*?


研究者对计划(Planning)组件的过度控制主要体现在以下几个方面:


(1)强加结构化的推理和决策框架:研究者会设计特定的逻辑顺序或分析框架,并提示智能体在做决策时必须遵循 。例如,引导智能体按预设步骤识别盟友与敌人,或将决策过程框定在一个具体的二元问题内,这使得模拟更像是对研究者预设逻辑的机械执行,而非智能体自主产生的多样化反应模式 ;


(2)嵌入特定角色的动机、策略和目标:通过提示词为智能体灌输特定的内在动机、预定义的战术或总体目标,以使其行为与指定角色保持一致 。例如,为智能体设定“荣誉高于生命”的强烈动机,或提供一个包含特定战术(如诚实/欺骗性证据)的有限策略库,这会直接引导智能体的行为路径,使其为了优化预设目标而行动,从而使观察到的社会结构更像是深度编程的结果,而非自发的发现;


(3)强制执行特定的认知过程:明确提示智能体在得出结论前,必须采用并阐述某种特定的推理过程,如“链式思考”(Chain-of-Thought) 。研究发现,强制使用这类推理方式会显著改变模型的默认输出模式和集体智能动态,这意味着观察到的行为可能是特定提示技巧的人为产物,而非智能体 genuinely emergent 的特征;


(4)定义明确的决策标准、阈值或效用函数:为智能体指定评估选项和做出选择时所依据的精确标准、数字阈值或数学效用函数 。例如,使用基于偏好依附和同质性的效用函数来模拟网络形成,或设定一个阈值来决定智能体何时会采纳某种行为 。这种方法虽然可以精确地建模特定理论,但也使得智能体的行为变得高度可预测,并被这些形式化的规则严格束缚,其行为更像是在执行被强加的模型,而不是对无约束选择机制的洞察 。


行动(Action):


个体的行动决定世界的样子


思考最终要落地为行动(Action)。行动环节是生成式智能体模型(GABM)中最直接、最具可观测性的部分,因为它标志着一个虚拟居民如何真正与环境互动、与他人交往,从而推动整个模拟世界的发展。然而,正如Li and Wu (2025) 所指出的,行动往往也是研究者最容易产生控制欲的地方。一旦智能体完全自由行动,模拟结果就可能偏离研究目标,甚至陷入混乱;但如果研究者过度限制行动范围,模拟的真实性和复杂性又会大打折扣。


行动的边界:封闭与开放


在研究实践中,行动通常被设计成封闭或开放两类模式。封闭的行动域意味着研究者预先定义好有限的行动集合,虚拟居民只能在这些选项中进行选择。例如Hua et al. (2023) 在设计国际关系模拟时,给每个国家智能体设定了七类固定的行动,如宣战、结盟、谈判等。这种做法的好处是条理清晰、便于统计,也更符合建模的严谨性,但它的问题在于缺乏人类行为的模糊性和创造性。现实中的国家在外交博弈中,往往会选择一些不在剧本里的做法,比如通过暧昧的声明来拖延,或者采取灰色操作进行试探,而这些微妙的策略在严格的行动空间里是无法出现的。


与之相对的是开放的行动域,研究者允许智能体自由生成自己的行为描述。例如,一个虚拟居民可能在模拟中突然提出要组织读书会,或者临时决定发起抗议。这样的设计无疑更接近人类社会的复杂性,也能带来更多的意外发现,但它的风险同样巨大,因为这些自由生成的行动很可能会和研究目标背道而驰,甚至让整个模拟失去解释力。在经济学模拟中,本来研究者关注的是消费和储蓄的模式,但如果某个虚拟居民突然决定“去火星旅游”,整个系统就会彻底偏离主题,失去研究价值。因此,大多数研究者往往会在二者之间寻找平衡,在允许一定自由的同时,仍然维持基本的边界。


行动的格式化与数据化


除了限定行动范围,研究者还会在技术上对行动输出进行严格的格式化,以便于后续的数据分析。最典型的例子是EconAgent(Li, Gao, et al. 2024),研究者要求虚拟居民用 JSON 格式提交自己的消费倾向和储蓄比例。这样做的好处是数据整齐、便于量化,模拟出来的经济曲线和经济学理论高度吻合,研究者也可以清楚地对比不同条件下的变化。但问题在于,这样的智能体更像是在填表格或答选择题,看似在自主决策,实则是在满足预先写好的参数框架。换句话说,它们的行动被削减成了数据点,而不是社会互动的自然表现。


这种现象在现实生活里并不陌生。它类似于考试时的选择题,学生心中也许有更复杂的想法,但最终只能在A、B、C、D四个选项里做出选择。虚拟居民在格式化输出下的行动,本质上也在被迫迎合研究者的测量方式。


案例与方法论困境


不同的行动设计会直接塑造模拟结果。Williams et al. (2023) 在疫情模拟中,让虚拟居民的行动仅限于“是否选择居家隔离”。这样的设定清晰地展示了疫情传播在不同条件下的走势,但人类在疫情中的复杂行为都被排除在外,例如有人可能会偷偷外出;有人会临时囤积物资;有人会因为谣言而做出极端选择。Hua et al. (2023) 的战争模拟中,七类固定的行动让国家的互动更像是一盘棋局,逻辑明确,但外交中的模糊地带和情绪波动则不复存在。而在EconAgent中,格式化的经济决策让模型看似完美贴合理论,却失去了现实生活中消费决策那种随意性和不确定性。


这些案例揭示了一个方法论上的两难。过度控制的结果是模拟变成了剧本排练,虚拟居民像演员一样在按本子走台词;过度自由的结果则是模拟变成了即兴表演,观众虽然觉得有趣,但无法从中总结出稳定的规律。这种张力和教育中的极端情况非常相似:一边是时间安排被精确到分钟的学生,成绩稳定但缺乏创造力;另一边是完全放任自流的孩子,自由散漫却难以形成系统性的学习成果。


因此,行动环节不仅是技术层面的选择,更是方法论上的立场表态。Li and Wu (2025) 指出,GABM在行动设计上仍然缺乏成熟的标准,研究者往往需要在可控性和真实性之间反复试探。每一次设定行动的边界,都是在回答一个根本的问题:我们希望模拟呈现的是一个井然有序的模型化社会,还是一个充满不确定性和矛盾的复杂世界?答案的不同,决定了模拟最终是科学的缩影,还是幻象的投射*。


从行动组件的角度来看,研究者主要通过以下方式进行过度控制:(1)强加高度受限的行动集合:这也被称为封闭域控制,即研究者定义一个有限且明确的离散行动列表,智能体只能从中选择。这种做法严重限制了智能体的行为空间,可能导致对复杂社会互动的过度简化,并阻碍新策略的出现 ;(2)通过结构化格式和规则约束行动输出:研究者通过施加特定的格式要求或有限的参数来指导和限制自由形式的行动生成;(3)调控行动效能和互动模式:这涉及研究者定义智能体行动的影响力、范围或强度,或明确构建智能体之间互动的机制 。这种做法虽然能确保系统按预期的影响模型运行,但也可能无法揭示在更少控制的社会环境中影响力是如何自然传播或被抵制的 。


协同与方法论困境:


从单点控制到系统操控


在生成式智能体模型中,身份、记忆、计划和行动并不是相互独立的模块,而是一个环环相扣的整体。身份为智能体提供了角色和性格的起点,记忆为这一角色注入了延续性,计划决定了它如何思考,而行动则是思考最终落实到世界的方式。看似是四个分开的部分,实际上任何一个环节的设计都会层层传导,最终影响整个模拟的走向。Li and Wu (2025) 在论文中指出,这种跨环节的协同正是决定模拟结果真实性的关键,同时也是研究者最容易进行潜在操控的入口。


我们不妨把这种协同关系理解成教育过程中的多重作用。一个孩子的身份设定可能是未来的科学家,这决定了他会被安排去学习更多理科课程;记忆的积累让他不断回想起“自己擅长解决难题”的经历,从而形成稳定的自信;计划的方式让他在遇到问题时倾向于逻辑推理,而不是情绪化反应;最后,在行动中,他会选择申请科研项目或参与实验,而不是随意娱乐。四个环节像多米诺骨牌一样,层层推动,最终让他的整个人生轨迹被早早写定。如果我们把这个比喻放到GABM里,就能理解为什么研究者在任何一个环节的设计,都会对整体行为施加深远影响。


Li and Wu (2025) 在归纳了22篇相关研究,并梳理了过度控制在四个环节的不同表现方式。在身份层面,研究者常常通过细化角色设定来确保模拟结果贴近研究目标;在记忆层面,研究者可能会人为挑选保留或删除的记忆,从而影响智能体的连续性;在计划层面,研究者会规定思维方式或决策标准,以保证逻辑合理;而在行动层面,研究者则往往通过限制选项或格式化输出,来使数据更便于统计。每一环节看似是局部的微调,但当这些操控叠加在一起,整个模拟系统就不再是一个自由生长的社会,而更像是一台精密但僵硬的机器。


以 Park et al. (2023) 的虚拟小镇为例,身份设定为居民提供了基本的社会角色,记忆系统让他们能够在互动中保持一致性,计划机制决定了他们如何对事件做出反应,而行动空间则限制了他们的行为范围。四个环节相互配合,使得小镇居民的互动呈现出某种逼真感。然而,这种逼真到底是自然涌现的,还是研究者通过每一环节的控制累积出来的结果?Li and Wu (2025) 的担忧正在于此:过度的跨环节操控,会让模拟结果变成幻象,而不是现实的镜像。


这种跨环节协同还带来另一个方法论困境,那就是边界模糊性。在实际研究中,很难清晰界定某个社会现象究竟来自于身份的设定、记忆的保留,还是计划的逻辑。比如在 Hua et al. (2023) 的战争模拟里,一个国家最终选择结盟,究竟是因为它的身份被设定成“安全焦虑型”,还是因为研究者只保留了它“受威胁”的记忆,亦或是因为计划环节规定了“必须先判断敌友再行动”?


表面上看,这是模拟中一个自然的战略决策,实际上却可能是三重操控的叠加结果。这种情况在教育里也常见:一个学生在考试中取得好成绩,我们很难判断这是因为他的“身份”是学霸,他的“记忆”里有充足的练习经验,他的“计划”方式是逻辑条理清晰,还是因为他的“行动”被考试制度限定成了选择题。多个环节的耦合,让因果关系难以拆解。


Williams et al. (2023) 的疫情模拟同样揭示了这种困境。他们让虚拟居民的记忆中不断更新感染人数,在计划环节要求他们根据风险水平做出理性判断,最后在行动环节规定他们只能选择“居家隔离”或“不隔离”。最终呈现出来的社会现象似乎非常符合人类的理性防疫逻辑,但仔细追问会发现,这种理性其实是研究者通过多环节控制拼凑出来的。如果在身份中设定一些居民是怀疑主义者,在记忆中保留“曾经上当受骗”的经历,在计划中允许情绪化判断,在行动中开放更多模糊的行为,结果可能会完全不同。由此可见,所谓的理性社会更多是设计者的幻象,而不是模型的自发涌现。


EconAgent(Li, Gao, et al. 2024)的例子则展示了另一种协同模式。研究者通过身份设定把智能体区分为不同收入群体,通过记忆系统积累他们的消费习惯,再通过计划机制要求他们每季度反思一次经济形势,最后让他们在行动中提交JSON格式的消费和储蓄比例。整个流程环环相扣,结果是一条符合宏观经济学理论的曲线。然而问题在于,这样的经济行为究竟有多少部分是真实涌现的?从身份到行动的层层操控,让这些居民更像是理论模型的执行器,而不是自主互动的社会成员。


Li and Wu (2025) 因此提出了一个尖锐的问题:我们在GABM中看到的社会现象,到底是智能体自由互动的结果,还是研究者的设计产物?当协同效应被过度操控时,模拟结果虽然整齐、美观、易于解释,却失去了最宝贵的复杂性和不确定性。而如果研究者完全放开控制,结果可能会混乱无序,甚至无法得出可用的结论。就像教育一样,过度设计的孩子可能成为“完美的产品”,却缺乏独立思考的灵魂;完全放养的孩子则可能随波逐流,难以形成稳定的成长路径。


因此,协同不仅是技术层面的挑战,更是方法论上的试金石。它迫使我们不断追问:我们究竟是要构建一个“逼真”的模拟世界,还是要寻找一个能真正解释社会复杂性的实验场?如果选择前者,我们得到的可能是一个可控却空洞的幻象;如果选择后者,我们必须容忍混乱与不确定。真正的科学价值,或许正是在这种混乱中孕育出来的。


控制与涌现之间的学术与人性困境


回顾前文,我们一路走过了身份、记忆、计划和行动四个环节,看到它们如何逐层叠加、相互作用,最终塑造出生成式智能体模型(GABM)中的模拟社会。我们也看到,这些环节从来都不是孤立的,而是协同影响的结果。身份为虚拟居民定下角色和性格,记忆让他们的行为具有延续性,计划为他们提供思维方式,而行动则是思维最终落实到世界的表现。四个环节环环相扣,看似只是研究者在技术上的提示词设计,但实际上,这背后潜藏的是一个关于“控制”与“涌现”的根本困境*。


研究者一方面希望通过使用抽象、简洁的“描述性提示词”来激活大语言模型的内在知识,从而 促使智能体的自主性并产生真实的涌现行为 。然而,这种方法存在低内部效度和行为不一致的风险,因为模型对抽象概念的解读可能与研究者的意图有偏差,且其言行可能不一 。


为了克服这种不确定性,研究者倾向于使用“指令性提示词”,通过直接命令或行为建议来精确引导智能体,以获得更高的控制力和可预测性 。但这又带来了“过度控制”的风险,即模拟结果可能更多地反映了研究者嵌入在提示词中的预设和偏见,而非智能体互动中自发产生的社会动态 。


面对这种困境,研究者出现了“方法论倒退”或者路径依赖的倾向,滑向了两个业已成熟的方向:一个方向是回归到传统ABM(代理人基建模)的范式,即通过引入大量的数值参数化来定义智能体属性和互动规则,但这牺牲了LLM在模拟社会场景方面的优势 ;另一个方向则是将本应是涌现式的多智能体互动,转变为更类似于“个体LLM测试”的场景,即通过极度详细的行为规则和预设的互动路径,让多智能体模拟在功能上变得与直接向单个LLM输入一个完整情景没有区别 。


Li and Wu (2025) 的论文之所以重要,正是因为它提醒我们:当研究者在身份中加入过多细节,在记忆中人为筛选片段,在计划中规定思维方式,在行动中限制选择空间时,整个模拟世界可能就变成了一场“幻象”。所谓的“复杂社会行为”,可能只是研究者的设计产物。换句话说,我们看到的并不是真正的涌现,而是披着复杂外衣的控制结果。这就好比教育中鸡娃的逻辑:孩子的高分和名校录取看似是他们成长的结果,但实际上是父母和学校把一切安排好了,孩子只是照着剧本演绎。


然而,完全放弃控制也并不可取。如果研究者在四个环节都放手,虚拟居民可能会展现出毫无逻辑的混乱行为,模拟结果变得无法解释,也无法和现实世界产生对照。这种情况下,研究者虽然保留了涌现的自由,但失去了科学研究所需要的秩序和可验证性。这就像教育中的放养,孩子或许在自由中找到了个性,但也可能在缺乏指导中迷失方向,失去了系统性的成长路径。


正因如此,GABM的真正价值,并不在于让虚拟居民无限逼近真实,而在于为社会科学提供一种新的实验场。它让我们有机会在虚拟环境里探索社会互动的复杂性,而不是在现实中冒着巨大风险进行试验。比如,在疫情中我们无法随意操纵真实人口的隔离政策,但我们可以在GABM中模拟不同决策路径的后果;在国际关系中,我们无法实验性地引导国家进入战争,但可以通过虚拟智能体推演潜在的结果。这种替代性实验的价值,是任何传统方法都无法比拟的。


因此,问题的关键并不是要在控制和涌现之间做出非此即彼的选择,而是要承认这两者之间的张力始终存在,并且学会在其中找到平衡。研究者需要反思:什么样的控制是必要的边界,什么样的放手是对复杂性的尊重。身份可以提供基本的社会定位,但不能写死个体的全部性格;记忆可以保证行为的一致性,但也要保留偶然与遗忘的可能;计划可以提供思维框架,但不应变成研究者写好的解题步骤;行动可以设置合理的范围,但也要允许灰色地带和模糊行为的出现。换句话说,研究者必须学会有限的控制,而不是全面的掌控。


这不仅仅是一个技术问题,更是一个方法论的问题。社会科学的魅力,正在于它研究的对象是复杂、多变、充满不确定性的社会。而 GABM的出现,给了我们一个近乎魔法般的工具,让我们在虚拟世界中重建社会互动的场景。可是,如果我们在使用这个工具的过程中,把社会的复杂性简化成剧本化的过程,我们最终得到的就不是科学,而是幻觉。真正的挑战在于:如何在保持科学严谨性的同时,仍然保留社会复杂性的涌现?


换个角度来看,这个问题其实也折射出现实社会的另一层隐喻。我们对孩子的教育、对组织的管理、对政策的设计,都面临着同样的难题:要不要严格控制,要不要放手让其自由发展?控制能带来秩序,但也可能扼杀创造力;放手能带来自由,但也可能导致失序。教育中的“鸡娃”和“躺平”,政策中的“强监管”和“放宽束缚”,企业中的“精细化管理”和“创新文化”,无一不是这种矛盾的现实版本。GABM不只是学术研究中的工具,它也让我们以另一种方式,重新思考人类社会中控制与自由的关系。


结论并不是要告诉我们答案,而是要让我们意识到问题的存在。也许,GABM最终给我们的启发并不是找到一种完美的提示词设计方式,而是提醒我们,在追求科学的同时,不要忘记保留复杂性的尊严。就像教育的目的不只是培养出一个听话的学生,而是让孩子成为一个独立而丰富的人,社会科学的目的也不只是制造出一个可控的模型,而是让我们更深刻地理解人类社会的多样性与不可预测性。


在未来,GABM或许会成为社会科学研究不可或缺的工具,但它能否真正帮助我们理解世界,取决于研究者是否愿意面对这种困境。如果研究者一味追求整齐划一的结果,它可能会变成一台制造幻象的机器;如果研究者敢于容忍混乱与不确定,它或许能揭示出社会互动中最真实、最复杂、最人性的那一面。而这,也许才是GABM最值得我们期待的价值所在。


附:作者推荐阅读的22篇前沿GABM文章


1.  Akata, E., Sarrade, C., Dockner, A., & Brandstetter, J. (2023). Playing repeated games with large language models. arXiv preprint arXiv:2305.16867. 


故事梗概:本文研究了大型语言模型(LLMs)在重复博弈场景中的行为,特别关注它们的合作与协调能力。研究人员在囚徒困境和性别战等多种双人博弈中测试了GPT-3、GPT-3.5和GPT-4的表现。研究发现,虽然LLMs在奖励自利行为的博弈(如囚徒困境)中表现良好,但在协调博弈中却遇到困难。在囚徒困境中,GPT-4表现出不可原谅的行为,在对手单次背叛后便总是选择背叛。在性别战中,GPT-4未能采纳简单的交替策略来改善协调。文章还展示了如何通过提供其他玩家信息或要求模型在决策前预测对手行动来改变LLM的行为。


2.  Cai, J., Hua, Y., Shameli, A., & Zhang, S. (2024). Language evolution for evading social media regulation via LLM-based multi-agent simulation. arXiv preprint arXiv:2405.02858.


故事梗概:本文提出了一个使用大型语言模型(LLMs)的多智能体模拟框架,旨在探索在受监管的社交媒体环境中语言的演变。它研究了用户如何调整其沟通策略以绕过内容审查,同时仍能有效传递信息。该研究在多种场景中部署了由LLM驱动的智能体——从抽象的数字猜测游戏到模拟的非法宠物交易和关于核废水的讨论。


3.  Chuang, Y. S., Suresh, S., Harlalka, N., Goyal, A., Hawkins, R., Yang, S., ... & Rogers, T. T. (2023). The wisdom of partisan crowds: Comparing collective intelligence in humans and llm-based agents. arXiv preprint arXiv:2311.09665.


故事梗概:本文探讨了大型语言模型(LLM)智能体在社交环境中是否表现出类似人类的党派行为。该研究复制了2019年一项人类研究的实验,在该实验中,民主党人和共和党人被要求估计涉及政治敏感话题的事实信息,然后在看到他人估计后修正自己的答案。研究人员发现,被提示扮演党派角色的LLM智能体表现出与人类相似的偏见,并且像人类一样,通过群体审议提高了准确性(即“党派人群的智慧”效应)。文章还探讨了不同的提示策略如何影响这种行为,发现详细的“人设”会增加党派偏见,而思维链推理则会降低向准确性趋同的效果。


4.  Dai, G., Zhang, W., Li, J., Yang, S., Rao, S., Caetano, A., & Sra, M. (2024). Artificial leviathan: Exploring social evolution of llm agents through the lens of hobbesian social contract theory. arXiv preprint arXiv:2406.14373.


故事梗概:本文探讨了具有生存本能的LLM智能体如何在资源有限的环境中发展出社会结构。这些智能体可以耕种、交易、互相抢劫或捐赠资源。模拟显示,它们的社会从最初充满频繁冲突的“自然状态”演变为一个有单一主权智能体的结构化“共同体”,这反映了托马斯·霍布斯的社会契约理论。各种实验检验了记忆深度、智力和人口规模等因素如何影响这一社会演化过程。


5.  De Curtò, J., & De Zarzà, I. (2025). LLM-Driven Social Influence for Cooperative Behavior in Multi-Agent Systems. IEEE Access.


故事梗概:该论文开发了一个理论框架,其中LLMs生成有说服力的内容,引导智能体在没有直接政策干预的情况下采取如“回归乡村”等合作行为。该研究将博弈论与网络动力学相结合,展示了社会影响如何通过智能体网络传播,即使智能体保持不活跃状态,也能在受LLM生成的叙事影响下,创造出自我维持的合作行为。


6.  Ghaffarzadegan, N., Majumdar, A., Williams, R., & Hosseinichimeh, N. (2024). Generative agent‐based modeling: an introduction and tutorial. System Dynamics Review, 40(1), e1761


故事梗概:本文介绍了生成式智能体建模,它将基于智能体的建模与大型语言模型相结合,以表征社会系统中的人类行为。一个案例研究展示了办公室职员每天在蓝色和绿色衬衫之间做选择,其决策由LLM提供信息,而非预定义规则。该模型揭示了社会规范如何通过同伴压力、脱颖而出的愿望以及权威人物的影响等多种反馈机制而涌现。


7.  Hao, Y., & Xie, D. (2025). A Multi-LLM-Agent-Based Framework for Economic and Public Policy Analysis. arXiv:2502.16879v1.


故事梗概:这项研究使用不同的大型语言模型(LLMs)作为具有不同能力的经济智能体。它检验了五个LLMs如何做出消费-储蓄决策,并引入了一个框架,其中每个LLM代表一个不同的教育和收入群体。这种多LLM方法捕捉了经济环境和推理能力两方面的异质性。该框架通过一个关于利息收入税的案例研究得到验证,展示了不同人群部分如何应对税收政策的变化。


8.  Hua, W., Fan, L., Li, L., Mei, K., Ji, J., Ge, Y., ... & Zhang, Y. (2023). War and peace (waragent): Large language model-based multi-agent simulation of world wars. arXiv preprint arXiv:2311.17227.


故事梗概:本文介绍了WarAgent,一个基于LLM的多智能体系统,用于模拟如第一次和第二次世界大战以及中国战国时期等历史冲突。它创建了代表国家的AI智能体,这些智能体根据其历史背景进行互动、结盟和决策。该研究旨在检验这些模拟在多大程度上反映了真实历史,哪些触发因素最常导致战争,以及在特定条件下重大冲突是否不可避免。


9.  Jin, X., Wang, Z., Du, Y., Fang, M., Zhang, H., & Wang, J. (2024). Learning to discuss strategically: A case study on one night ultimate werewolf. Advances in Neural Information Processing Systems, 37, 77060-77097.


故事梗概:本文介绍了一项旨在增强AI智能体在“一夜终极狼人”游戏中进行策略性讨论能力的研究。它将该游戏构建为一个多阶段广义贝叶斯博弈,并提供了理论分析,揭示了讨论在决定玩家结果中的关键作用。研究表明,玩家在均衡状态下的收益取决于通过讨论影响的信念。基于此分析,文章引入了一个由强化学习指导的语言智能体框架,该框架包含一个通过强化学习训练的讨论策略,该策略根据智能体的观察和信念选择适当的讨论战术(诚实或欺骗)。


10. Lan, Y., Hu, Z., Wang, L., Wang, Y., Ye, D., Zhao, P., .. & Wang, H. (2023). Llm-based agent society investigation: Collaboration and confrontation in avalon gameplay. arXiv preprint arXiv:2310.14985.


故事梗概:本文使用“阿瓦隆”游戏作为试验平台,探索了基于LLM的智能体的社会行为。研究人员为LLM智能体开发了一个游戏框架,实现了记忆、分析、规划、行动和响应生成等模块,并具备经验学习能力。与以往主要关注积极行为的研究不同,本研究同时考察了协作和对抗两个方面。该框架允许智能体参与复杂的社会互动,包括团队合作、领导、说服、伪装和对抗。


11. Li, A., Chen, H., Namkoong, H., & Peng, T. (2023). LLM generated persona is a promise with a catch. Columbia University. arXiv:2503.1652v1.


故事梗概:通过对跨多个模型生成的一百万个“人设”进行系统性实验,该研究表明,随着LLM生成的内容越来越多地被纳入“人设”,模拟结果与真实世界结果的偏差也越来越大。这一点在政治模拟中尤为明显,LLM生成的“人设”显示出系统性的左倾偏见,最终导致模拟的选举结果预测民主党在美国所有州获胜。这一现象不仅限于政治领域,还延伸到消费者偏好、教育价值观和娱乐选择等方面。


12. Li, J., Hsieh, A., Li, Y., Cai, T., You, H., Zhang, Y., & Wang, Y. (2024). Agent hospital: A simulacrum of hospital with evolvable medical agents. arXiv preprint arXiv:2405.02957.


故事梗概:本文介绍了“智能体医院”,一个虚拟的医院环境,其中所有患者、护士和医生都是由大型语言模型(LLMs)驱动的自主智能体。该环境模拟了从发病、诊断到康复的完整疾病治疗周期。医生智能体通过治疗患者智能体和阅读医学书籍可以实现进化,获得可转移到现实世界医疗问题的专业知识。研究人员引入了基于模拟的进化智能体学习(SEAL),它包括两个组成部分:模拟环境构建(建造虚拟医院)和智能体进化(使医生智能体能够从经验中学习)。


13. Li, N., Gao, C., Li, M., Li, Y., & Liao, Q. (2023). Econagent: large language model-empowered agents for simulating macroeconomic activities. arxiv preprint arxiv:2310.10436.


故事梗概:EconAgent利用大型语言模型的推理能力,通过异质性智能体模拟宏观经济活动,这些智能体在应对复杂市场动态的同时,做出类似人类的工作和消费决策。


14. Liu, Y., Chen, X., Zhang, X., Gao, X., Zhang, J., & Yan, R. (2024). From skepticism to acceptance: Simulating the attitude dynamics toward fake news. arXiv preprint arXiv:2403.09498.


故事梗概:本文提出了一个使用基于LLM的智能体来模拟虚假新闻传播的框架。研究人员创建了一个由具有不同个性、双重记忆系统(短期和长期)以及推理能力的智能体组成的网络,以模拟虚假新闻如何通过社交互动传播。该模拟在微观(个人信念变化)和宏观(人群感染率)两个层面进行操作。


15. Papachristou, M., & Yuan, Y. (2024). Network formation and dynamics among multi-LLMs. arXiv preprint arXiv:2402.10659.


故事梗概:这项研究探讨了像GPT、Claude和Llama这样的大型语言模型(LLMs)在作为智能体互动时如何形成社交网络。该研究测试了LLMs是否展示了人类网络形成的关键原则,包括优先连接(连接到受欢迎的节点)、三元闭包(与朋友的朋友建立关系)、同质性(与相似的人连接)、社区结构和小世界属性。


16. Park, J. S., O'Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. In Proceedings of the 36th annual acm symposium on user interface software and technology (pp. 1-22).


故事梗概:生成式智能体架构将大型语言模型与记忆流、反思能力和规划机制相结合,以创建可信的自主虚拟角色。在一个类似《模拟人生》的沙盒环境中,这些智能体维持连贯的日常生活、建立关系、分享信息并协调活动,展示了个体行为的连贯性和涌现的社会动态,而无需明确编程。


17. Wang, C., Liu, Z., Yang, D., & Chen, X. (2024). Decoding echo chambers: Llm-powered simulations revealing polarization in social networks. arXiv preprint arXiv:2409.19338.


故事梗概:本文介绍了一个基于LLM的模拟框架,用于研究社交网络中的回音室和极化现象。该研究创建了三种不同的网络结构(小世界、无标度和随机图)来模拟社交媒体互动。该框架将个体表示为具有个性化特征的LLM智能体,他们根据推荐算法进行互动,并通过推理更新自己的观点。研究将这种基于语言的方法与传统的数值模型(BCM和FJ模型)进行了比较,并展示了其框架如何有效复制极化现象。研究人员还提出了两种缓解策略——主动和被动助推——以帮助减少回音室效应。


18. Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986.


故事梗概:本文提出了一种新的流行病建模方法,利用生成式AI来模拟疾病爆发期间的人类行为。它将基于智能体的模型与大型语言模型相连接,允许虚拟个体根据其个性、健康状况和对疾病流行情况的了解做出自主决策。该模型展示了现实行为,如生病时自我隔离和在高感染期自我隔离,产生了与实际大流行病浪潮和地方病阶段相似的模式。


19. Wu, Z., Peng, R., Zheng, S., Liu, Q., Han, X., Kwon, B. I., ... & Xiao, C. (2024). Shall we team up: Exploring spontaneous cooperation of competing llm agents. arXiv preprint arXiv:2402.12327.


故事梗概:本文探讨了LLM智能体是否能在没有明确指令的竞争场景中发展出无意识的合作。研究人员通过三个案例研究对此进行调查:凯恩斯选美竞赛(猜数字游戏)、伯特兰竞争(公司间的价格竞争)和紧急疏散(智能体从房间逃生)。他们精心设计提示,以避免指导性描述或暴露关键词,从而让智能体通过情境和互动自然地调整策略。实验表明,即使在最初的竞争环境中,LLM智能体也能通过沟通和从过去的互动中学习,逐渐从竞争行为转向合作行为。


20. Xue, Z., Jin, M., Wang, B., Zhu, S., Mei, K., Tang, H., ... & Zhang, Y. (2024). What if llms have different world views: Simulating alien civilizations with llm-based agents. arXiv preprint arXiv:2402.13184.


故事梗概:这项研究引入了“CosmoAgent”,一个使用大型语言模型(LLMs)来模拟人类与外星文明之间互动的框架。研究人员开发了一个数学模型来量化文明发展水平,并使用状态转移矩阵来评估其发展轨迹。该研究探讨了具有不同世界观(和平主义、军国主义、孤立主义)的文明在信息不对称的条件下如何互动,特别是在文明之间存在通信延迟的情况下。该研究旨在为具有不同价值体系的实体之间潜在的跨文明动态和预防冲突的策略提供见解。


21. Zhang, X., Lin, J., Mou, X., Yang, S., Liu, X., Sun, L., ... & Wei, Z. (2025). SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users. arXiv preprint arXiv:2504.10157.


故事梗概:SocioVerse是一个使用基于LLM的智能体进行社会模拟的框架,旨在解决模拟环境与真实环境之间的对齐挑战。该系统包含四个主要部分:社会环境(提供真实世界背景)、用户引擎(从一千万真实用户池中创建逼真的用户画像)、情景引擎(构建各种互动格式)和行为引擎(生成智能体响应)。该框架通过三个不同的模拟展示了其能力:总统选举预测、突发新闻响应分析和国家经济调查建模。


22. Zhang, Z., Lian, J., Ma, C., Qu, Y., Luo, Y., Wang, L., ... & Wen, J. R. (2024). TrendSim: Simulating Trending Topics in Social Media Under Poisoning Attacks with LLM-based Multi-agent System. arXiv preprint arXiv:2412.12196.


故事梗概:本文介绍了TrendSim,一个基于LLM的多智能体系统,用于模拟投毒攻击如何影响社交媒体平台上的热门话题。该系统创建了一个具有时间感知互动和集中化信息传播的逼真模拟环境,以模拟热门话题。它使用具有感知、记忆和行动模块的类人智能体来模仿真实用户,并开发了基于原型的攻击者,生成不同类型的投毒评论。


参考文献


Akata, E., Sarrade, C., Dockner, A., & Brandstetter, J. (2023). Playing Repeated Games With Large Language Models. Preprint, arXiv:2305.16867.


Hua, W., Fan, L., Li, L., et al. (2023). War and Peace (Waragent): Large Language Model-Based Multi-Agent Simulation of World Wars. Preprint, arXiv:2311.17227.


Li, N., Gao, C., Li, M., Li, Y., & Liao, Q. (2024). Econagent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics(Vol. 1, pp. 15523–15536).


Li, Z., & Wu, Q. (2025). Let It Go or Control It All? The Dilemma of Prompt Engineering in Generative Agent‐Based Models. System Dynamics Review, 41(3), e70008.


Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology(pp. 1–22). ACM.


Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic Modeling With Generative Agents. Preprint, arXiv:2307.04986.


Xie, C., Chen, C., Jia, F., et al. (2024). Can Large Language Model Agents Simulate Human Trust Behaviors?Preprint, arXiv:2402.04559.


文章来自于微信公众号 “追问nextquestion”,作者 “追问nextquestion”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0