别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

7718点击 2025-07-04 09:55

最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了"，这些文章认为随着模型变得越来越智能，精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论：prompt不仅没有死，反而是理解大模型最重要的科学工具。这种反差让人深思——为什么一边有人在宣告prompt的死亡，另一边却有顶级研究者在为它的科学地位辩护？答案可能在于我们一直在用错误的方式看待prompt。仔细想想，我们对GPT-4、Claude这些模型的重大发现，哪一个不是通过精心设计的prompt实现的？

一个被严重误解的研究领域

您知道吗，几乎所有归因于大语言模型的重要能力——few-shot学习、思维链推理、宪政AI——都是通过prompting首先被发现的。few-shot学习让模型仅凭几个示例就能掌握全新任务，比如您只需在prompt中给三个翻译例子，模型就能翻译任何语言；思维链推理让模型能展示推理过程，不再是神秘的黑盒输出，而是像人类一样"思考"；宪政AI则让模型能够自我审查和改进，按照预设的道德准则调整回答。这三个能力支撑了您现在体验到的所有AI应用——从智能客服到代码助手，从创意写作到复杂分析。

然而在学术界和工程界，prompt研究却经常被当作"不够硬核"的技术，甚至被讥讽为现代炼金术、黑魔法等。芝加哥大学的研究者Ari Holtzman和Chenhao Tan认为这是一个严重的范畴错误，就像用解剖的方式去理解外星人的智能，而忽略了通过语言交流获得洞察的可能性。

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

Prompt Engineering ≠ Prompt Science

这里有个关键区别您必须搞清楚。Prompt Engineering是为特定模型、任务和数据集优化prompt的过程，通常通过暴力搜索或启发式技术来实现，工程师往往不试图理解为什么某个prompt有效。比如您发现在客服场景中加上"请用友好的语气回答"能提升用户满意度，但您不知道背后的原理，也不验证这个发现是否适用于其他场景。

Prompt Science则完全不同——它使用LLM的输入来发现和确认输出分布中的规律性。探索性prompting意味着用新prompt探测模型发现新行为，而prompt研究则是用结构化方式变化prompt来确认假设的正式行为研究。关键在于提出可证伪的声明，比如"在数学题前加上'让我们一步步思考'会提高准确率"——这个假设可以在不同模型和数据集上验证。就像做化学实验一样，我们不是随便混合试剂，而是通过控制变量来理解反应机制。

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

论文的核心论点概览。A. 区分prompt science和prompt engineering的重要性；B. Prompt science能够在正确的抽象层次进行研究，可扩展到大型模型和复杂行为，并且是可证伪和可测试的；C. 指出对prompting的典型批评的弱点

什么是Prompt Science？

Prompt Science：是一套科学方法论，通过设计和测试不同的prompt输入，系统性地发现大语言模型的能力边界、行为规律和内在机制。就像生物学家通过观察动物行为来理解其智能一样，Prompt Science通过观察模型对不同语言输入的反应，来揭示AI智能的本质。

它有三个核心特征：可证伪性（能提出可验证的假设）、可重现性（同样的prompt在不同场景下能得到一致结果）、普适性（发现的规律能跨模型泛化）。这让它区别于随意的prompt调优，成为真正的科学研究方法。

为什么这很重要？因为几乎所有改变AI世界的重大发现——从GPT-3的few-shot能力到ChatGPT的对话智能——都是通过这种方法首先被发现的。Prompt Science不是大模型的"使用说明书"，而是理解AI智能的"显微镜"。您可以看下《重磅 | 最新最系统的Prompt调查，谁再打着提示词大师的旗号蒙你，把这篇甩给他》

被遗忘的发现史：重大突破都来自Prompt

让我们回顾一下大模型发展的完整历程，您会发现几乎每一个改变游戏规则的突破都始于prompt实验。In-Context Learning是第一个震撼业界的发现——GPT-3展示了仅通过在prompt中提供几个示例，模型就能掌握全新任务，无需任何参数更新。让业界意识到大模型具有前所未有的泛化能力，彻底改变了传统的机器学习范式。

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

与prompting成功相关的时间线（绿色突出显示）和prompting被负面认知的潜在原因（红色突出显示）

Chain-of-Thought推理

2022年，Wei等人发现在prompt中加入推理步骤能显著提升数学问题的准确率，随后Kojima等人发现仅仅在prompt末尾加上"let's think step by step"五个单词，就能获得类似效果。这不是巧合，而是发现了模型训练数据中推理链与正确答案之间的深层关联，直接催生了现在的o1和DeepSeek-R1等推理模型。《你真的了解CoT？普林斯顿大学解密影响CoT效率的因素，引用5875次的CoT讲了啥》

RLHF

Reinforcement Learning from Human Feedback和InstructGPT本质上也是prompting的胜利。虽然被包装为"训练创新"，但其核心是将有效的prompt交互模式自动化——通过人类反馈优化模型对指令的响应。ChatGPT的聊天界面更是将prompting推向了普通用户，证明了自然语言交互的强大潜力。

DSPy-TroT-Gemini

2024年DSPy将prompt优化变成了可编程的系统，Tree-of-Thought让模型能够进行复杂的搜索和规划。Gemini的百万token上下文专门为复杂prompting策略设计，支持many-shot learning等新范式。但讽刺的是，这些创新往往被重新包装——结构化prompting被称为"自动优化"，CoT被整合到训练流程中不再被认为是prompting。《重磅 | DSPy让你不写一句Prompt照样构建Agent，从此，你不再卑躬屈膝讨好LLM》

为什么Prompt被当作"旁门左道"？

原因其实挺复杂的。一方面，早期研究确实显示prompt极其敏感——改一个标点符号可能导致性能剧变，这让人觉得不够稳健。另一方面，机器学习社区有个根深蒂固的偏见：只有算法创新和模型训练才算"真正的贡献"。一旦某个prompt技术被证明有效，它往往会被重新包装成其他名词，比如Chain-of-Thought变成了"推理时计算"，RLHF本质上是自动化的prompt策略却被称为"训练创新"。

Prompt的科学本质：可证伪且可复现

不过话说回来，什么让一个研究方法具有科学性？最重要的是可证伪性和可复现性。Prompt研究完全满足这些条件——您可以提出"在数学题前加上'让我们一步步思考let's think step by step'会提高准确率"这样的假设，然后在不同模型和数据集上验证。相比之下，很多所谓"严格"的机制解释性研究，往往只能确认我们已经知道的假设，而无法发现全新的能力。

语言：探索模型的天然接口

为什么我们要费劲去分析模型权重和激活值，而不好好利用模型已经掌握的交流方式——语言？论文作者用了一个很生动的比喻："如果我们发现了一个智能外星物种，我们会通过与它们玩简单的纸牌游戏并观察它们的推理模式来学到很多东西，而不是通过解剖。"大语言模型就是这样的"外星智能"，prompt就是我们与它交流的自然方式。更重要的是，与研究人类不同，LLM不会产生观察者效应，可以做到近似确定性，还允许并行进行多个实验。

与机制解释性的互补关系

这里要澄清一个重要误解：prompt science和mechanistic interpretability不是对立的，而是互补的研究方法。Mechanistic interpretability（机制解释性）是指通过分析神经网络的内部结构——权重、激活模式、注意力头等——来理解模型如何工作的方法。它试图"打开黑盒"，找到模型内部实现特定功能的具体机制。

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

图3：prompt science与机制解释性比较的概览图

Marr三层分析框架：理解智能系统的经典理论

要理解两种方法的关系，我们需要先了解David Marr在1982年提出的三层分析框架。这个框架将任何信息处理系统（包括大脑和AI）的理解分为三个层次：

计算层面（Computational Level）：回答"做什么"和"为什么做"的问题。这一层关注系统要解决的问题是什么，以及解决这个问题的目标和约束条件。比如视觉系统的计算目标是从二维图像中重建三维世界的表示。

算法层面（Algorithmic Level）：回答"怎么做"的问题。这一层关注用什么表示和算法来实现计算目标。比如边缘检测算法、特征提取方法等。

实现层面（Implementation Level）：回答"在什么上面做"的问题。这一层关注算法如何在具体的物理系统中实现，比如神经元网络、电路或计算机硬件。

这个框架的核心洞察是：不同层面的理解都是必要的，但它们提供不同类型的解释。

哲学视角：两种方法的分工

从Marr框架来看，prompt science和mechanistic interpretability采用了完全不同的研究视角：

Prompt science主要在计算层面发力——通过观察模型的输入输出行为来理解其能力边界和功能特性。比如发现"让我们一步步思考"能激发推理能力，这告诉我们模型具备了某种推理计算能力，但不一定要知道具体如何实现。

Mechanistic interpretability专注于实现层面——通过分析具体的神经元激活和权重连接来理解这种推理是如何在网络中实现的。比如找到哪些注意力头负责推理，哪些神经元存储了逻辑规则。

两种方法在算法层面相遇：prompt通过行为探测发现算法模式，mechanistic工作则识别实现这些算法的具体计算图。这种相遇让我们能够建立从行为到机制的完整理解。

抽象语言：自然语言 vs 几何表示

两种方法在探索工具上形成鲜明对比：

Prompt science使用自然语言作为探索工具——这种"productive vagueness"（富有成效的模糊性）让我们能够用灵活的方式描述复杂现象。当我们说"think step-by-step"时，我们不需要精确定义每一步，但模型能理解并执行。

Mechanistic interpretability依赖几何表示——精确的向量、矩阵、激活模式，这提供了数学上的严格性，但可能错失一些微妙的行为模式。就像用显微镜观察细胞结构一样精确，但有时会错过生物体的整体行为。

实践优势对比

从实践角度看，两者各有明显优势：

可扩展性方面：Prompt science显然更容易——您只需要设计文本输入就能测试任何规模的模型。而mechanistic interpretability面临"可扩展性危机"：分析GPT-4这样的千亿参数模型在计算上几乎不可能。

研究范围：Prompt science具有广泛的行为化特征，可以测试各种复杂场景；mechanistic interpretability更有针对性和结构化，通常关注特定的、简单的任务。

理解深度：Prompt science产生的理解更实用且可访问——当您发现某个prompt策略有效时，可以立即应用到产品中。Mechanistic interpretability提供精确且局部化的理解，就像电路图一样详细，但这种精确性有时会让人"见树不见林"。

科学循环：发现→解释→指导

科学叙述角度最为关键。两种方法在科学发现过程中承担不同但互补的角色：

Prompt science：行为发现——它能揭示我们从未意识到的模型能力，比如few-shot learning就是一个完全意外的发现。它像探索者一样，在未知领域寻找新现象。

Mechanistic interpretability：确认和形式化——它能解释我们已经观察到的现象是如何工作的。它像工程师一样，将发现的现象拆解并理解其工作原理。

两者形成完美的科学循环：prompt发现新现象→mechanistic interpretability解释其机制→基于机制理解指导新的prompt实验→发现更多现象。

实际应用建议

您在实际开发中，完全可以遵循这样的流程：

先用prompt发现有趣的行为模式
再用机制分析验证假设，理解为什么有效
最后基于机制理解设计更有效的prompt策略
循环迭代，不断深化对模型的理解

这不是竞争关系，而是科学研究的完整链条。就像医学研究中，临床观察发现症状，基础研究找到病理机制，然后指导新的治疗方案一样。

强势回应：为什么这些质疑站不住脚

面对prompting的科学地位，学术界和工程界提出了不少质疑。作者对此做出了深层回应，每个反驳都很有说服力，这是整篇论文最有意思的部分之一。在这里您能看到，那些看似合理的反对意见是如何被一一击破的，以及为什么prompting不仅不是"过时技术"，反而是理解大模型的核心科学方法。以后谁再说"提示词工程不行了"，就把这篇文章甩给他！

质疑一："缺乏数学严谨性"

反对声音：Prompting缺乏优雅的数学公式，没有清晰的输入输出关系描述，不如那些有漂亮方程式的方法科学。

深层回应：这种质疑假设LLM中最重要的现象都能用我们现有的数学抽象来最好地捕捉。但问题在于，我们今天写的方程式——无论是描述注意力机制还是优化景观——往往无法捕捉prompting揭示的丰富行为模式。就像植物育种者在理解基因机制之前就开发出了系统化的作物改良方法一样，prompting为研究LLM能力提供了框架，这些能力可能还不适合用紧凑的数学描述，直到我们发现模型解释语言的"遗传密码"。

质疑二："不涉及模型训练就不算贡献"

反对声音：机器学习文化偏向于认为有意义的研究贡献必须涉及训练新模型或开发新架构，prompting研究感觉不够"硬核"。

深层回应：这种观点混淆了模型训练的声望与科学价值。关于LLM的最重要洞察——从上下文学习到思维链推理——都是通过精心的prompting而非架构创新发现的。学术界的奖励结构可能无意中阻止了研究者追求行为研究，但这绝不是忽视prompting科学贡献的好理由。发现比创造同样重要。

质疑三："Prompt调优等同于p-hacking"

反对声音：Prompting允许太多变化性，创造了类似p-hacking的问题，人们可以优化prompt来获得更好的基准分数但无法泛化。

深层回应：这代表了一个范畴错误：它假设我们想要"孤立地"评估LLM，而prompt妨碍了这种评估。实际上，LLM是概率分布，不会产生问题的答案；只有LLM与prompt和解码方法相结合才构成可以评估的完整系统。试图通过通用prompt消除这种变化性完全错失了重点。LLM天然需要上下文，prompting就是我们提供上下文的方式。真正的问题是prompt优化不足——如果更好的prompt能给出更好的结果，那这就是运行在给定prompt上的系统能力。

质疑四："Prompt太脆弱了"

反对声音：大量研究表明"prompt脆弱性"——对prompt的微小扰动会显著改变LLM输出，这让模型控制变得困难。

深层回应：虽然这确实让终端用户的模型控制变得复杂，但我们认为这种敏感性实际上反映了模型试图从有限上下文中推断大量信息的尝试。当LLM缺乏足够上下文时（从它们的角度看），它们通过对语用含义的敏感性来补偿——这是训练目标导致它们建模隐含的作者身份和人格方面的结果。指令调优方法虽然减少了对扰动的敏感性，但也明显降低了灵活性。这种权衡突出了prompt敏感性是探索影响模型行为因素的工具，而不仅仅是需要纠正的错误。Prompt脆弱性可能让prompt工程更困难，但它让prompting科学变得更强大。

质疑五："Prompt无法跨模型泛化"

反对声音：研究者担心prompting发现对特定模型过于专门化，无法提供关于LLM行为的一般性洞察。

深层回应：这种担忧反映了对可重现性和泛化重要性的有效科学直觉。但在实践中，许多基础prompting方法——包括上下文学习、检索增强生成和思维链推理——已经证明在足够规模的模型家族中具有鲁棒性。能够测试跨模型泛化实际上为区分基本能力和模型特定特性提供了有价值的过滤器，而不是弱点。

质疑六："Prompting需要过多手工努力"

反对声音：一个重要但较少明确讨论的障碍是认为prompting在根本上比其他LLM研究方法更劳动密集和不系统。

深层回应：这种看法往往是误导性的。实际上，prompting通常能够实现更快的迭代周期和比需要模型重训练的方法更便宜的探索，使其成为行为研究的高效工具而非繁琐的替代方案。作为证据，我们提供prompting已经导致的所有突破——这些发现的速度和影响力本身就证明了这种方法的效率。《ICLR2024重磅 | DSPy或将手写Prompt推进历史，悄悄学会DSPy，一线技术圈很缺你这类人才》

总结这些质疑，您会发现它们大多源于对prompting本质的误解，或者学术界对"什么算真正的科学"的偏见。真正的问题不是prompting不够科学，而是我们还没有充分认识到它的科学价值。

实战建议：如何做好Prompt Science

对于AI产品开发，我建议把prompt当作实验工具而不仅仅是调优手段。设计对照实验，系统性地变化prompt要素，观察模型行为的变化模式。比如测试不同格式、不同示例数量、不同指令方式对结果的影响。记录这些发现，它们往往能揭示模型的隐含能力或局限性。更重要的是，这些发现通常可以跨模型泛化，成为您理解整个大模型家族的宝贵知识。

长上下文时代的新机遇

随着Gemini这样的百万token模型出现，many-shot prompting成为可能。但奇怪的是，虽然长上下文的驱动动机就是为了容纳更复杂的prompting策略，我们却看到更多关于长上下文训练的论文，而非探索长上下文prompting策略的研究。这其实是个巨大的机会窗口——您可以探索在长上下文中如何设计更有效的prompt模式，这可能会发现模型的全新能力。

重新定义AI开发的科学性

说到底，这篇研究想告诉我们什么？在AI快速发展的今天，我们不能因为方法"看起来简单"就轻视它的科学价值。prompt research揭示了模型能力，指导了训练方向，甚至重新定义了我们对智能的理解。作为AI产品开发者，您应该把prompt当作探索工具，而不仅仅是部署工具。通过系统性的prompt实验，您不仅能更好地控制现有模型，还可能发现下一个改变游戏规则的能力。

写在最后：拥抱语言的力量

我们正站在AI发展的关键节点上。未来的AI系统将更加强大、更加复杂，而语言很可能仍然是我们与它们交流的主要方式。掌握prompt science，就是掌握了理解和控制未来AI的核心技能。不要再把prompt当作"奇技淫巧"——它是通往AI本质的科学大门。

文章来自于“Al修猫Prompt”，作者“Al修猫Prompt”。

关键词: AI , 模型训练 , 提示词 , Prompt

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0