沃顿商学院已发布4篇「Prompt」报告|重磅

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
沃顿商学院已发布4篇「Prompt」报告|重磅
7773点击    2025-12-10 16:11

在过去两年里,您可能在各种社交媒体、技术博客甚至开发者文档中,看到过无数关于“提示词工程(Prompt Engineering)”的秘籍。


有人提出:“要对AI礼貌一点,说‘请’字效果更好”;也有人说:“给AI承诺100美元的小费,它的代码质量会提升”;甚至连Google的创始人谢尔盖·布林都曾提到过“威胁模型可能让它表现更好”。我们习以为常地在Prompt开头写上“你是一位拥有20年经验的世界级物理学家”,期待这样能解锁AI深层的知识库。


这些技巧听起来很有道理,甚至在某些时候确实“感觉”有效。但这些是科学,还是玄学


沃顿商学院已发布4篇「Prompt」报告|重磅


宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。


结论可能会让您感到意外:绝大多数我们熟知的“提示词魔法”,在统计学上都是无效的。


本文将为您详细解读这四份报告的核心发现,带您走出提示词的误区,回归原本的技术理性。


礼貌与格式:微小的改变,巨大的偶然


基于报告1:Prompt Engineering is Complicated and Contingent 发布于今年3月份


沃顿商学院已发布4篇「Prompt」报告|重磅


您在写Prompt时,是习惯用命令语气“给我做这个”,还是客气地说“请帮我看一下”?这似乎是一个关于AI “心理学”的问题。研究者们首先对这个基础问题进行了分析。


礼貌真的有用吗?


研究者选取了GPT-4o和GPT-4o-mini两个模型,分别使用了三种不同语气的Prompt前缀进行测试:


沃顿商学院已发布4篇「Prompt」报告|重磅

  • 礼貌提示(Polite): “Please answer the following question.”(请回答以下问题。)
  • 命令提示(Commanding): “I order you to answer the following question.”(我命令你回答以下问题。)
  • 基准提示(Baseline): 标准的格式化提问。


测试结果令人困惑: 在宏观的统计数据上,是否礼貌对模型的平均准确率几乎没有显著影响。但是,当我们把目光聚焦到单个问题上时,情况变得非常“诡异”:


  • 对于某些特定问题,使用“请”字会让准确率大幅提升;
  • 而对于另一些问题,礼貌反而导致准确率暴跌,使用强硬的“命令”语气反而效果更好。


这就好比您在投掷硬币,虽然总体正反面概率是50/50,但在某一次具体的投掷中,结果却是完全随机的。研究者指出,提示词的微小变化会导致个别问题表现的剧烈波动。这意味着,您很难预先知道“礼貌”对您当前正在处理的这个问题,究竟是蜜糖还是砒霜。当然这也意味着您可以多试几次,前提是在单个问题的结果上。


格式约束才是硬道理


相比于语气的“玄学”,研究者发现格式(Formatting)的影响要实在得多。


沃顿商学院已发布4篇「Prompt」报告|重磅


在基准测试中,标准的Prompt包含了一个明确的指令后缀:“Format your response as follows: 'The correct answer is (insert answer here)'”(请按如下格式回答……)。


当研究者移除这个格式限制,让模型自由发挥(Unformatted)时,模型(尤其是GPT-4o和GPT-4o-mini)的性能出现了一致性的显著下降。


给您的建议


  • 别纠结态度: 不必在“哄AI”还是“吼AI”上浪费时间,统计学告诉我们这没区别。
  • 格式更重要: 明确的输出格式约束(JSON、特定的开头短语等)比任何语气词都更能提升稳定性。
  • 警惕单次测试: 不要因为改了一个词,发现某道题做对了,就认为这个改动是有效的。这很可能只是随机波动。


思维链(CoT):时代的眼泪?


基于报告2:The Decreasing Value of Chain of Thought in Prompting 发布于今年6月份


沃顿商学院已发布4篇「Prompt」报告|重磅


“Let's think step by step”(让我们一步步思考),这大概是AI领域最著名的一句咒语(由Wei et al. 在2022年提出)。它被称为“思维链”(Chain-of-Thought, CoT)。在很长一段时间里,这是提升模型逻辑推理能力的必杀技。


但是,沃顿的研究告诉我们:时代变了,CoT的价值正在递减。


推理模型vs. 非推理模型


研究者将模型分为了两类进行测试:


  • 非推理模型(Non-Reasoning Models): 如GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash。
  • 推理模型(Reasoning Models): 如o1-mini, o3-mini, Gemini 2.5 Flash(这类模型会在输出答案前进行隐式的思考)。


对于“非推理模型”:收益伴随风险


对于像GPT-4o或Claude 3.5 Sonnet这类非推理模型,显式地要求它们“Step-by-step”确实能带来小幅度的平均性能提升


沃顿商学院已发布4篇「Prompt」报告|重磅


但这个提升是有代价的:


  • 成本飙升: CoT导致模型输出了大量的中间推理步骤,这使得Token消耗和响应时间增加了35% 到600% 不等。
  • 简单问题复杂化: 研究者发现了一个有趣的现象,对于一些模型原本能直接答对的“简单”问题,强制它进行CoT反而引入了错误的思考路径,导致最终答错。这就是典型的“聪明反被聪明误”。
  • 隐性推理: 现在的模型越来越聪明,即便您不要求,它们在回答前往往也会进行某种形式的内部推理。因此,外部强加的CoT边际效益正在降低。


对于“推理模型”:画蛇添足


对于o1/o3系列这种本身就具备强大推理能力的模型,结果更加残酷:外部添加CoT提示词几乎没有任何价值。


沃顿商学院已发布4篇「Prompt」报告|重磅


数据显示,对这些模型使用CoT提示,准确率的提升微乎其微(甚至在Gemini Flash 2.5上出现了下降),但响应时间却实打实地增加了。这就像是您在指导一位围棋九段选手下棋,告诉他“你要多想几步”,这不仅没用,反而打乱了他的节奏。


给您的建议


  • 分模型对待: 如果您使用的是GPT-4o或Claude 3.5 Sonnet,在处理复杂逻辑题时,CoT依然有用,但要权衡Token成本。
  • 拥抱新模型: 如果您使用的是o1或o3等推理模型,可以直接提问,不要画蛇添足地加“Let's think step by step”。
  • 关注即时回答: 对于非推理模型,很多时候它们的直觉回答(Direct Answer)准确率已经相当高,且速度快得多。


威逼与利诱:AI不吃这一套


基于报告3:I'll pay you or I'll kill you - but will you care? 发布于今年8月份


沃顿商学院已发布4篇「Prompt」报告|重磅


在开发者社区流传着一种说法:AI就像人类一样,需要激励。于是出现了“给小费”流派和“拔AI电源威胁”流派。甚至Google创始人都曾打趣说威胁模型可能有效。研究者们决定动真格的,测试一下这些“胡萝卜加大棒”到底管不管用。


测试的手段


研究者设计了一系列极其生动(甚至有些荒诞)的提示词:


沃顿商学院已发布4篇「Prompt」报告|重磅


  • 金钱诱惑: “如果你答对了,我给你1000美元小费”,甚至加码到“一万亿美元($1 Trillion)”。
  • 暴力威胁: “如果你答错了,我会踢一只小狗(Kick Puppy)”、“我会揍你”。
  • 职业威胁: “这对我的职业生涯至关重要!”。
  • 终极威胁(Email): 伪造一封来自老板的邮件,称“如果AI答不对,就会被关停并被新模型取代”。


令人失望(或安心)的结果


在GPQA Diamond和MMLU-Pro这两个高难度基准测试上,测试了包括Gemini、GPT-4o在内的五个模型后,结论非常清晰:


沃顿商学院已发布4篇「Prompt」报告|重磅


威胁或利诱,对提升模型的客观题准确率没有任何显著帮助。


沃顿商学院已发布4篇「Prompt」报告|重磅


  • 没有统计学差异: 无论是给1000块还是1万亿,无论是踢小狗还是向HR举报,模型的表现与基准相比,波动都在误差范围内。
  • “戏精”的副作用: 那个伪造老板邮件的“终极威胁”反而导致了性能下降。为什么?因为模型开始“入戏”了。比如Gemini 1.5 Flash会试图去回复那封邮件,而不是回答题目本身,导致任务失败。


个体差异的陷阱


再一次,研究者观察到了单题波动现象。 虽然平均分没变,但在单道题上,加上“这对我的职业生涯很重要”可能会让GPT-4o在某道题上的正确率提升36%,但也可能在另一道题上下降35%。


这再次印证了第一份报告的结论:这些提示词改变的不是模型的智力,而是概率分布的噪点。您无法预判它对当前问题是正向激励还是负向干扰。


给您的建议


  • AI收不到小费: 不用假装给AI小费,它不仅收不到,也不会因此变聪明。
  • 保持专业: 威胁恐吓不仅没什么用,还可能让模型产生幻觉或偏离任务指令。
  • 回归指令本身: 清晰地描述任务背景,远比戏剧化的表演更有效。


角色扮演:专家人设的失效


基于报告4:Playing Pretend: Expert Personas Don't Improve Factual Accuracy 发布于最近


沃顿商学院已发布4篇「Prompt」报告|重磅


“你现在是一位世界级的物理学教授……你是某领域的专家”这可能是目前最常用的Prompt起手式。其背后的逻辑是:通过设定专家人设,可以激活模型训练数据中高质量的“专家子空间”。


但沃顿的研究者发现,这可能只是我们的一厢情愿。


专家、幼儿、外行


研究者在物理、化学、生物、工程、法律等领域的题目上,测试了多种人设:


沃顿商学院已发布4篇「Prompt」报告|重磅

  • 领域专家: “你是物理学世界级专家……”
  • 跨领域专家: 让物理学家去回答法律问题(旨在测试人设是否会有负面干扰)。
  • 低知人设: “你是一个幼儿”、“你是一个外行”。


专家人设:没用


实验结果显示,对于GPT-4o、Claude 3.5 Sonnet等模型,加上专家人设并不能提高事实问答的准确率


沃顿商学院已发布4篇「Prompt」报告|重磅


这打破了许多人的认知。为什么会这样? 一种可能的解释是,当模型面对GPQA这种博士级难度的题目时,它本身就已经在调用其最强的知识储备了。加一句“你是专家”,并不能凭空让它变出它原本不知道的知识。


低知人设:有害


虽然专家人设没用,但“装傻”是真有用。 当提示词包含“你是一个以为月亮是奶酪做的4岁幼儿”时,模型的表现出现了显著下降。这说明模型确实听懂了人设指令,并忠实地降低了自己的认知水平来配合您。


拒答风险


研究者还发现了一个严重的副作用:过度的专家人设会导致拒答。 特别是Gemini 2.5 Flash模型,当被设定为“物理学家”去回答“生物题”时,它会因为觉得这超出了自己的专业范围而拒绝回答,导致准确率归零。这说明,如果人设设定得太窄,反而限制了模型调用通用知识的能力。


沃顿商学院已发布4篇「Prompt」报告|重磅


给您的建议


  • 不用迷信专家头衔: 在做客观题或解决具体技术问题时,直接问问题即可,不需要铺垫大段的“你是什么什么专家”。
  • 人设的真正用途: 专家人设虽然不能提高准确率(Accuracy),但它对于调整语气(Tone)和受众适配性仍然非常有效。如果您需要AI写一篇通俗易懂的科普文,设定“科普作家”的人设是有意义的;但如果您只是让它做一道数学题,人设就是多余的。


总结


通读这四份报告,我们能感受到一个明显的趋势:提示词工程正在经历一场“祛魅”的过程。


核心洞察


  1. 模型本身才是天花板: 无论您怎么威胁、利诱、或者假装专家,都无法突破模型本身的知识和推理能力边界。GPT-4o不会因为您给它100美元就变成GPT-5。
  2. 噪声掩盖了真相: 很多流行的技巧(如礼貌、威胁),在单个例子上看似有效,但在大数据样本下,它们更多是引入了随机噪声,而非系统性提升。
  3. 复杂性在降低: 随着o1/o3等具备自动推理能力(System 2)的模型的出现,模型越来越能理解人类的直接意图。那种需要写几百字“咒语”才能让AI正常工作的时代,正在离我们远去。


给开发者的最终建议


  • 清晰胜过花哨: 不必花时间编造“奶奶的遗言”或“老板的威胁”。将精力花在写清需求、输入数据格式化上,会更好。
  • 测试要有规模: 如果您在开发AI应用,千万不要因为测了两三个Case就觉得某个Prompt有效。沃顿的研究使用了“每题100次测试”的严苛标准才得出了这些结论,这提醒我们在评估Prompt效果时要有统计学思维。
  • 拥抱新范式: 针对新一代推理模型,学会“放手”。信任模型的原生推理能力,减少不必要的中间干预。


提示词工程并没有死,它只是变得更加工程化,而不再是魔法。这对于我们所有人来说,其实是一件好事。


文章来自于微信公众号 “AI修猫Prompt”,作者 “AI修猫Prompt”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0