LLM 智能体很赞,正在成为一种解决复杂难题的强大范式。
不过,这种成功目前更多还停留在「经验主义」的工程实践层面 —— 我们知道它好用,但往往不知道它在宏观上为何如此运作。那么,我们是否能找到一个理论框架,像物理学描述自然界那样,去理解和统一智能体的宏观动力学(macroscopic dynamics)?
为了解开这个黑盒,近日,北京大学物理学院、高能物理研究中心以及北京计算科学研究中心联合发力,跨界借用了物理学中经典的最小作用量原理(least action principle)。他们提出了一种新颖的方法,成功估计了嵌入在智能体中的 LLM 隐秘的生成方向性(directionality),揭示了 AI 生成过程背后可能存在的「物理定律」。

简单来说,他们通过实验测量了 LLM 生成状态之间的转移概率。基于此,他们在统计上发现了 LLM 生成转移中的细致平衡 (detailed balance) 现象。
这表明:LLM 的生成可能不是通过一般性地学习规则集和策略来实现的,而是通过隐式地学习一类潜在的势函数 (potential functions),这些势函数可能超越了不同的 LLM 架构和提示词模板。
该团队表示:「据我们所知,这是首次在不依赖特定模型细节的情况下,发现 LLM 生成动力学中的宏观物理定律。」
什么意思呢?通俗来说,该团队发现 AI 的思考并不是「死记硬背」,而是像水往低处流一样遵循「物理本能」。
是的,LLM 智能体在解决问题时,其行为模式并不像很多人以为的那样仅仅是在匹配规则或随机尝试,而是隐约看到了一张无形的地形图(势函数)。在这个地形图中,错误的答案就像是高地,而正确的答案则是谷底。智能体的每一次推理和生成,实际上都是在最小作用量原理的驱动下,自然而然地向着势能更低、质量更好的状态流动。
这意味着,AI 能够解决复杂问题,是因为它在海量参数中内化出了一种全局的「直觉」,这也是科学家首次在 AI 生成过程中发现了不依赖于特定模型的宏观物理定律。
这一发现将 AI 研究从「炼丹术」提升到了可量化的「物理科学」高度。通过验证物理学中的「细致平衡」现象,该团队证实了 AI 的思维跳跃并非无迹可寻,而是像热力学平衡系统一样有着严格的数学比例。
这让我们可以用物理指标来给不同的大模型画像;比如,研究发现:
这一理论框架让我们可以用科学测量的手段去预测和控制 AI 的行为,而不再仅仅依赖盲目的工程试错。看起来,也正如谷歌前些天的一篇论文展现的那样(参阅报道《谷歌发布智能体 Scaling Law:180 组实验打破传统炼金术》),AI 智能体的研究不再只是简单的工程实践,而是正在提升为建立在有效测量基础上的、可预测且可量化的科学。
下面具体来看看这个北大团队究竟发现了什么。
为了严谨地表述这一问题,该团队研究的是一个核心由一个或多个 LLM 组成的智能体。
该智能体将其当前状态 f 作为输入,通过一系列确定性的步骤对状态进行组织和评估,从而生成一个相关的提示词。随后,该提示词被输入到一个或多个 LLM 中,其结构化的输出经解析后得到一个新的状态 g。该状态是研究 LLM 动力学的最小单位。
这种生成过程可以被视为状态空间 𝒞 中的一个马尔可夫转移过程,其转移核为 P (g|f),保留了 LLM 生成的多样性和适应性。状态由智能体在每个时间步保留的完整信息定义,这应当包含智能体执行连续推理或类比过程所需的所有信息。在本文中,智能体仅包含 LLM 的单个生成步骤,记 𝒯(g←f)=P (g|f) 为智能体通过 LLM 生成从包含状态 f 的模板转移到包含状态 g 的输出的概率。
图 1 为示意图。

基于 LLM 的智能体的特征在于,其状态转移并非完全随机,而是表现出某种结构化的偏好。
具体而言,智能体倾向于从当前状态 f 转移到从智能体视角来看「更好」的状态 g。
为了捕捉这一现象,假设存在一个潜在的势函数 V_𝒯:𝒞→ℝ,它为每个状态分配一个标量值,以反映其「质量」。由于特定的势函数通常难以直接计算,研究者提出了一种有效估计该势函数的方法。
给定一个全局势函数 V,研究者将智能体的给定转移 𝒯(g←f) 对势函数的违背定义为 K (V (f)−V (g)),其中 K (x) 是一个凸函数,用于描述从状态 f 到状态 g 的转移在多大程度上违背了势函数 V 的排序。为了量化智能体行为与势函数之间的整体不匹配度,研究者以转移核 𝒯(g←f) 为权重,将作用量 𝒮 定义为全局平均违背:

其中 Df,Dg 是状态空间上的测度。在本文中,研究者选择 K (x)=exp (-βx/2) 作为描述给定状态转移 f 到 g 违背标量函数 V 排序程度的凸函数。作用量 S 或 βV (f) 的分布形状可以代表该状态空间 C 内智能体的全局认知能力。
研究者提出,若要利用势函数量化 LLM 的行为,可以寻找一个使智能体转移与势函数之间的整体不匹配度最小化的势函数。因此,描述给定状态空间中基于 LLM 的智能体𝒯 最合适的势函数 V_𝒯 ,是那个能使作用量 S 最小化的函数。
这意味着作用量满足关于势函数 V_𝒯 的变分原理:

该变分条件等价于 V_𝒯 满足以下平衡条件:

这对所有 f∈C 成立,其中 K'(x)=dK/dx。
具体而言,如果对于所有转移 𝒯(g←f)>0,,均有 V (f)≥V (g) 成立,则表明智能体的状态转移是完全有序的,在此情况下,V 充当李雅普诺夫函数。
值得注意的是,如果 𝒯 描述的是一个平衡系统的转移,其状态转移满足细致平衡条件,即对于所有状态对 (f,g),下式成立:

其中 π(f) 表示系统在状态 f 处的平衡分布,而 P (g|f) 表示转移核。在这种情况下,存在一个势函数 V 可以明确地将细致平衡表示为:

代入 (3) 式,可以验证该势函数 V=V_𝒯 满足最小作用量原理。这表明对于平衡系统,如果存在细致平衡条件,则可以通过最小作用量原理估计其潜在的势函数。在一般情况下,最小作用量仅仅是在寻求势函数的最有序排列,从而最小化智能体状态转移对该排列的违背。
研究者指出,基于 LLM 的智能体在其 LLM 生成的状态空间中,往往表现得像一个平衡系统,该状态空间相较于 LLM 完整的生成序列是粗粒化的。这一现象的存在表明 LLM 生成动力学中存在一种不依赖于具体模型和任务细节的普遍宏观规律。这表明,尽管看似无关,但在不同的 LLM 生成过程之间存在潜在的联系,使我们能够通过势函数 V_𝒯 描述 LLM 生成中的全局有序性,从而为 LLM 的内部动力学提供解释。
在本文中,研究者提出了一种基于最小作用量原理的框架,旨在描述和分析基于 LLM 的智能体在其 LLM 生成的状态空间中的生成动力学。
通过在多个不同模型和任务上的实验验证,研究者发现这些智能体的状态转移在很大程度上满足细致平衡条件,这表明它们的生成动力学表现出类似于平衡系统的特征。研究者进一步通过最小作用量原理估计了底层的势函数,并揭示了其在捕捉 LLM 生成动力学内在方向性方面的重要作用。
研究者对发现 LLM 生成动力学中的宏观规律进行了初步探索。
该团队也展望了未来:「未来的工作可以进一步扩展这一框架,并探索利用更多来自平衡及近平衡系统的工具,以理解和优化 LLM 的生成过程。例如,研究偏离平衡的程度可能有助于我们理解模型的过拟合水平,因为过拟合的模型可能会学习更多局部的策略集,而不是由势函数支配的全局生成模式。此外,基于势函数的优化方法也可能为提高 LLM 任务相关生成的质量和多样性提供新思路,例如根据不同的安全性和探索需求调整不同幅度的作用量。」
更多技术细节请参阅原论文。
文章来自于“机器之心”,作者 “+0、泽南、Panda”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0