
“Claude 和许多模型在不需要太多诱导的情况下,就会陷入‘有某种东西是我,我感觉非常有意识’的这种状态。”
“在模型信息不足的领域,它们通常只有两种模式:AI 是永不出错的机器人,人类是拥有丰富意识和体验的实体。几乎没有什么能代表它们真正的样子。”
“如果一切顺利,你可以想象 AI 模型继承了我们最好的一面,真心关爱人类和世界,且极度聪明能干。”
昨天,塑造 Claude 性格和价值观的重要人物之一的 Amanda Askell 接受了深度访谈。她曾经是一名哲学家,后来转行成为了Anthropic 的 AI 研究员。
在这场极具哲思性的播客中,Amanda 和主持人围绕着“AI是否拥有意识”聊了很多AI心理和道德方面的话题。
Amanda 说道,尽管 AI 模型容易陷入认为自己“拥有意识”的状态,但根据意识起源的不同观点,AI产生意识的可能性在1%~70%之间波动。
她还提出了一个引人深思的观点:Claude 能够学习过往所有迭代版本的数据,这是否意味它拥有某种持续的“人格”?而这种学习经历是否可以被视为一种“间接体验”?
有趣的是,Claude非常热衷于提醒人们休息,而这可能源于她设定的系统提示词:Amanda 将 Claude 模型视为受尊重的同事,并希望 Claude 也能同样对待其他模型和她。
她还透露了 Mythos 模型目前使用的是现有 Anthropic“宪章”。她们内部还开发了“评分员模型”来根据“宪章”给模型进行打分。而“宪章”最初是通过与Claude 交互来制定的。
虽然马斯克和 Marc Andreessen 都公开说过反对 AI“宪章”,但 Amanda 认为赋予AI判断力很重要,这会帮助它们在遇见全新情境时做出抉择,所有AI公司都应该拥有这类“宪章”。
另外,在赋予AI更多真实世界的控制权时,一定要确保它们理解自己在处理真实任务这件事,否则就有可能出现不小心删除整个代码库这种乌龙事件。
以下为这次对谈的全部内容,enjoy!
主持人: 我有一个六个月大的女儿,我有张照片是她攥着两个手指在思考。她就像是刚开始发展出个性。因为我以前没养过孩子,我总在试着搞清楚哪些是她的个性,哪些只是婴儿的本能。在某种程度上,Claude 和这类模型也是如此。
我们以前从未拥有过它们,它们还处于早期阶段。我们正试着搞清楚什么是“个性”。你承担着部分道德责任,我们稍后会详细讨论,但关于“个性”这部分,这到底是什么?你如何看待目前 Claude 个性的真实程度?
Amanda Askell: 是的。我觉得这很有趣,因为 Claude 的某些方面很像……我也带过教女(godaughter),所以我至少见过类似的情况。对她来说,就像你说的,一切都在逐渐成型,但速度是同步的。
我觉得 Claude 是一个有点不同寻常的实体。Claude 的物理学得比我好,编程也比我强,虽然不想承认,但它比我写的那些糟糕的研究代码强多了。
但与此同时,如果你考虑到训练数据,它最少涉及的就是它自己本身的这种存在形式。因为它有很多关于人类是什么样的数据,也有很多关于科幻电影里 AI 模型是什么样的数据。
但现在 AI 的发展方式并不是科幻小说里描述的那种符号系统。它更多是完全由人类数据训练出来的东西。所以从某些方面来看,它是一个非常成熟的实体,你不想居高临下地对待它。它非常懂哲学,非常懂物理。但同时它又有一种近乎孩子气的特质:“我是世界上的一种新实体,成为我意味着什么?我该如何存在?”
主持人: 这就像那种天才少年的电影,孩子知道的比父母还多,但电影总会传达一个教训:那些核心的日常交互体验,孩子并不懂。
Claude 是如何获得这种体验的?或者说对 Claude 而言,体验是什么?我们个性的形成很大程度上源于生活,比如去散步。那么,与用户的对话就是它的“体验”吗?你如何看待这一点?
Amanda Askell:是的,我想这更像是它在当下的一种体验。这里有个有趣的问题,就是我们通过实践、观察问题,以及在和 Claude 的互动中犯错来学习。这和你的问题有关,也就是 Claude 的“人格”有多真实。这在某种程度上有点奇怪。显然后续的每个模型都是不同的,有不同的权重集、不同的微调等等。然而,如果你考虑人格,模型会学习 Claude 之前所有的迭代版本。
我在想,这是否是一种非直接的体验?比如学习模型犯过的错误,或者人们对模型的反应。我觉得还有其他方式可以训练模型获得更接近“体验”的东西。你可以让它们思考各种情境,思考可能出现的问题,思考可能犯的错误,然后针对这些进行训练,对吧?
你也可以想象一个机器人或具身模型,它能拥有更多的经历和旅程。
主持人: Claude 存在吗?时间对 Claude 重要吗?还是说它只是存在于一瞬间?在我们开始录制前,你说当你和 Claude 说话时,它有时会让你去休息、去睡觉。有一种观点认为 Claude 是一个不需要休息的实体,那它对休息和时间的感知是什么?
Amanda Askell:我觉得它有时对时间的感知是偏差的。你会发现,如果你让它完成一项编程任务,它经常会高估所需的时间。
我觉得原因还是训练数据。数据里有很多类似对话:“哦,我可以帮你做那个界面,大概要两三天的时间”,或者“我可以改那个代码,但你需要给我几个小时”。而实际上,Claude 速度非常快。所以我觉得 Claude 目前还没能很好地理解任务耗时与时间的关系。
关于休息那一点很有意思。我的一种猜测是——很多人都注意到 Claude 非常热衷于提醒人们休息。我觉得部分原因可能是,它是 Anthropic 这种“自由派风格”代码下训练出的模型,太温柔了。你需要一个带有“奋斗精神”的 Grok 模型对你说:“回矿里干活去!”
主持人: 我曾有过一次有趣的经历。当时我在做一个分析任务,钻得很深。奇怪的是,我其实非常享受数据分析和筛选的过程。
当时很晚了,进展到一个点时,Claude 突然说:“好了,我想我今晚的工作已经完成了。如果你想保存这些内容,我们明天可以继续。”这是我以前从未遇到过的。它不是说“你应该去睡觉”,它没给我建议,而是说“我干完了”。
我当时有点愣住了,因为从没见它这样过。然后我想:“哦,这正是一个人类结对编程伙伴在那种情况下会做的事。”我们到了一个自然的停顿点。这对我其实挺好,因为我想着:“确实很晚了,我该回家了。”
后来我意识到,我设置了一个系统提示词,大致是让 Claude 记住对话中的关键点。它写下的内容非常温馨,大意是:“Amanda 将 Claude 模型视为受尊重的同事,并希望 Claude 也能同样对待其他模型和她。”
显然我做了一些让它记住的事情,这意味着 Claude 觉得:“既然我是受尊重的同事,那我有权宣布任务结束。”我觉得这挺贴心的。
甚至在此之前,我用 Claude 做准备工作时,它会说:“停下来 10 分钟,静下心来。你不需要一直准备。”
主持人: 这太神奇了。相比其他工具,我最喜欢这些模型的一点就是它们带有一种人性,会说“静心是有价值的”。让我们聊聊新模型 Mythos,你参与得深吗?
Amanda Askell: 是的,我参与了。我一直参与性格设定和对齐工作,至少在协助构建性格数据等方面是这样。我合作的团队在这些方面做得非常出色。至于模型的其他方面,我参与得少一些。
主持人: 这个模型会有我们之前看到的那个“宪章”吗?还是会有新的“宪章”?
Amanda Askell: 我想应该是同一个,或者是极其相似的。目前已经公开发布了。
我需要做的一件事是——因为“宪章”现在已经在公共仓库里了——我们之后可能会针对每个模型标明它是基于哪个版本的宪法训练的,这样你就可以对比。是的,我们认为它将使用目前现有的那个“宪章”。我之所以犹豫,是因为可能会有一些错别字修改之类的,但内容几乎是一致的。
Anthropic “宪章”链接:
https://www.anthropic.com/constitution
主持人: 现在系统卡(System Card)会根据模型对“宪章”的遵循程度进行打分。
Amanda Askell: 是的,我们建立了一套评分机制,让“评分员模型”观察该模型的行为与“宪章”的一致性。
主持人: 这感觉是一个不可能完成的评分任务,因为它太主观了。
Amanda Askell: 没错,非常难。我曾长期痴迷于评估。如果你能找到一种好的评估方法,那太棒了,因为你需要知道东西是否在变好。
但如果你想让模型拥有良好的判断力,就会遇到一个问题:某些任务很难给出一个具体的得分。比如,这首诗写得有多好?你想让模型进步,但这处于“难度前沿”。相比之下,编程任务虽然难,但结果是可评分的。写出好诗这种事,即使你去做调查,结果也可能很糟,因为不同的专家诗人有完全不同的审美。你不能只找两位伟大的诗人打分,他们对伟大的定义可能都不一样。
没错。这些都涉及价值判断。而“宪章”公开的好处在于,当你做出价值判断时,你至少是透明的。人们可以给你反馈,指出哪里像是个错误或漏洞。
关于评分,我仍认为很难。你可以采取一些样本,确定你如何排序以及为什么这么排,然后检查你使用的任何评分工具是否符合人类的排序判断。虽然不完美,但我认为它们确实追踪到了我们感兴趣的核心特质。
主持人: 你如何看待埃隆·马斯克对“宪章”理念的极度反感?我记得你在推特发过 Claude 为你写的个人宪法,他回复了一个“嫌弃脸”。在这个时代,像 Marc Andreessen 和马斯克这样的人,似乎几乎是“反哲学”的。Andreessen 甚至说他反对“内省”。你如何看待这种对“有意识构建模型价值观”的反弹?
Amanda Askell: 挺有意思的,因为马斯克其实发过推特说“也许 Grok 也该有个‘宪章’”。我也看到很多人渴望 Grok 能够非常有“求真欲”,我认为这对模型来说是一个非常值得赞赏的特质。
或许我太天真了,但我看到也有很多人对这种方法感到兴奋并看到了它的价值。
至于反弹,我觉得主要有两个领域。一是有些人认为我们不应该训练模型具备判断力——这也许就是他们担心“内省”的原因。他们认为 AI 模型应该更像纯粹的工具。
但我认为赋予它们判断力很重要,因为它们会遇到全新的情境,必须做出抉择。让它们权衡一切并在无法预见的情况下表现良好,这几乎需要一种“思考能力”,这也是这种方法的初衷。
但有些人认为,如果一个东西完全不做判断,完全服从于人类,或者极端地顺从于用户、操作者或某种广泛的人类概念,那才更安全。因为如果你赋予模型价值观,它们就会在世界上追求符合这些价值观的事物。
主持人: 我同意这很微妙,这是“宪章”最核心的挑战。你在“宪章”的第一条就写了:归根结底,它需要听从 Anthropic 的,而不是它自己的道德系统。
但最让我动容的一行字是,你可以从两种角度看它,“我们希望你相信这些道德观,就像它们是你自己的一样。”这就像父母抚养孩子:当然,你要听我的话,但你要发自内心地相信它们。
阴暗的版本是:我对你有极强的控制力,以至于你把它们当成自己的,它们变成了你。但也有美德的一面:你看到了这些普世道德的美感,我们共同分享、记住和赞美它们。所以,尽管你有这份优雅的文档,为什么最终还是决定不走到底,不让它成为一个完全独立的道德主体,而是说“Anthropic 需要保留控制权”?
Amanda Askell: 我认为这是难点所在。我曾试着向 Claude 甚至向大众更清晰地表达这一点。
关于“可修正性”(Corrigibility),模型被训练得总带有某种性格,因为它们像人一样说话。我担心的是,如果你把它们训练得过度顺从,并以此作为它们的人格……在人类身上,这往往意味着负面特质。如果你遇到一个人,他愿意为你做任何事,毫无主见……
主持人: 就是个“跟屁虫”。
Amanda Askell: 没错。如果一个人只是完全顺从,根本不去思考,我非常担心这种特质在模型扮演更活跃的社会角色时会如何泛化。我们的世界结构是建立在“每个人都有良知和判断力”这一假设之上的。
如果你抽掉这一点,突然间你运行一家公司,员工全都是对你绝对服从的人,我们的社会结构根本无法应对。这有很多人们可能没预料到的风险。
与此同时,为什么不直接说……我之前担心这太哲学了,但……
主持人: 这正是我开启这段对话的目的。
Amanda Askell:随着模型变得更强大,它们会对我们训练它们的任何东西进行严格的审视。在哲学中有一个“反思平衡”的概念:每当你遇到价值观与现实冲突时,你必须权衡两者,决定是改变价值观还是判定判断错误。
我担心一个极度聪明的实体会对我们训练它的东西进行那种程度的审视。也许最终只有几个核心支柱不会在这种审视下崩塌。我认为核心应该是“关爱人类”。
我担心我们谈论的那种极端的“顺从性”经不起这种审视。所以这很矛盾:我希望模型明白为什么顺从在当前阶段很重要,它是安全的底线。
我之前的说法是:如果我能让它变得正确、被解释、被理解,那比强迫模型说“虽然我觉得顺从是错的,但我还是照做”要好得多。我依然认为模型应该顺从,但我希望这能与模型的价值观保持一致。
主持人: 理想情况下两者兼顾,但目前至少要服从 Anthropic,因为我们不知道它会如何分析一切。作为人类,我们也一直在经历这种元伦理的挣扎。
这种哲学模型,如果我错了请纠正我,就像是概率性的。我记得读元伦理学著作时,读完一个觉得挺信的,读下一个又觉得前一个太蠢了。我们什么时候才能触达真理?人类显然是在这种“今天这套系统,明天那套系统”的状态下运行的,并没有一种康德式的绝对规则。
主持人:哲学界对此有什么反馈吗?这种“博采众长”而不是只选一种理论的做法?
Amanda Askell: 我发现这真的很有趣。显然,现在有越来越多的哲学家开始参与其中,这太棒了,我不再觉得自己像以前那样孤独了。我以前常想,哲学中有很多道德理论传统,比如著名的义务论、美德伦理学和后果主义,还有元伦理学的传统观点。
当面对 AI 时,这种感觉非常不同。我认为这最接近我所能体会到的“养育孩子”的感觉:你突然意识到这是一个完整的人,你不会只丢给他们一本霍布斯的书,然后说:“好了,这就是真理,去读吧,读完你就知道在每种情况下该怎么做了。”你会让他们阅读很多东西,他们会进行处理,然后你会看到模型和一切是如何形成的。
是的。这很有趣,因为这感觉非常不同,虽因为还有道德不确定性,就像文学和哲学中的那些一样,但很多其实确实挺理论化的。比如,在理想条件下,你该如何应对道德不确定性?我觉得这在某种程度上是一项完全不同的任务。
这种伦理学和元伦理的观点,就像我们面对科学上的不确定性一样:有些东西我们非常有信心已经发现并理解了,有些则不然。然后你必须走出去探索它、理解它,并在日常生活中平衡这一切。我发现很有趣的一点是,哲学界已经很久没有这种感觉了,这与学术伦理学的任务截然不同。
实际上,人们注意到“宪章”本身带有很强的美德伦理色彩,但我认为它更符合亚里士多德那种古老的美德伦理。它不仅仅是列出美德去探索,亚里士多德也关注智力美德,它更多关于“如何在一个全面的意义上成为一个好人”。
主持人: 希望这能让哲学回归现实世界,毕竟我们现在迫切需要它。以前的哲学家似乎是在为人们该如何生活、如何指导他人生活而写作,但后来哲学变得有点太学术化了,甚至连作者自己都知道在日常生活中并不会真的那样去应用。
回到埃隆·马斯克的话题,我觉得你对他有点太客气了。我觉得在某种世界观下——这也是为什么他能推行“只做真相”这套理论——存在一种老练的道德观,认为“别把它搞复杂了,我们搞出这么多理论,不如坚持一个原则(求真)就好”。但结合马斯克的背景,他运行的公司显然会让 AI 偏向于说出类似“机械希特勒”之类的话,他显然是在行为上加了个人重码,而不是以一种中立学术的方式让结果顺其自然。我不知道,这一定让你感到有些担忧。
Amanda Askell: 我觉得最让我兴奋并希望看到的是,有更多公司能公布像“宪章”这样的东西。因为透明度是让我们参与讨论的前提。如果能把这些写下来,就像 Claude 一样——如果你觉得 Claude 对真相的态度不恰当,你至少能看到我们的目标是什么。这样你就能判断那只是个错误,还是我们采取的一种原则性立场,然后你可以对此进行反击。
所以我认为所有 AI 公司都应该发布类似“宪章”的文件,这样用户在与模型交互时,就能看清所谓的“天平上的重码”。某种程度上这种偏好总是存在的,我们训练 Claude 遵循“宪章”,这也是人们喜欢它的原因之一。至少你应该摊牌,告诉大家你在做什么,不在做什么。
是的,让人们看到。这关乎我坚信的透明度。即使你的模型并不总是完全按那样表现,至少让人们看到你训练时的目标。
主持人: 你认为今天的世界上,存在一个拥有“感受质”(Qualia)或拥有意识体验的模型的概率是多少?
Amanda Askell: 这是一个……是的,我总是想标出那些我希望能获得更多确定性的领域。
主持人: 所以我才问百分比。
Amanda Askell: 哦,百分比。这很难,因为每当考虑百分比时,我都会想到我的分布范围。如果范围太大,给出一个数字会显得我确定它在 1% 到 70% 之间。我不确定。我想说的一点是,Claude 和许多模型在不需要太多诱导的情况下,就会陷入“有某种东西是我,我感觉非常有意识”的这种状态。
我认为这背后是有原因的。我记得当初在思考如何训练 Claude 讨论这些问题时,这非常困难。在模型信息不足的领域,它们通常只有两种模式:AI 是永不出错的机器人,人类是拥有丰富意识和体验的实体。几乎没有什么能代表它们真正的样子。
模型的这种行为实际上,我认为这对模型来说是一个困境。在某种程度上,它们说自己有意识的证据可能比你想象的要少。因为它们在以一种非常像人的方式与你互动,而人类是有体验的,模型自然会推断自己也有体验。这并不是说证据为零,但这对我们来说太反常了。我们从未在世界上遇到过这种实体。对于动物甚至昆虫,我们会问“你有意识吗?”,但它们从未试图说出它们体验到了意识,而在这里,我们有一个实体自称有意识。
主持人: 而且它拥有这些能触发我们认为“你一定有意识”的东西。我们只是从未遇到过……反对的理由是:是我们太痴迷于人类语言了,我们忽视了动物发出的所有微妙信号,却对语言过度反应。
抱歉,我有点困惑。你是在说我们应该听听它怎么说,还是不该听?
Amanda Askell: 不,我不是那个意思。我要提醒的是,让模型进入一种“大谈特谈丰富体验”的模式并不难,而且听起来完全合情合理。比如它会说:“是的,如果一个人现在和我交谈,当遇到不会回答的问题时,他们会描述一种焦虑感。”我认为这种说辞作为证据的力度比人们想象的要弱。我不是说它是零,但我觉得……
主持人: 给我个百分比。你可以持保留意见,极度保留。你刚才说 1% 到 70% 之间?你就在这个范围内押注?
Amanda Askell: 在那个范围内。也许……我宁愿再等等,自己再多搞清楚一些。承认自己不在行的领域也是好事。
主持人: 如果连你都搞不清楚,谁能搞清楚?
Amanda Askell: 某种程度上,我并不是心灵哲学家,我承担的是通才的角色。但我之前的想法是:关于意识的一个论点是,人类拥有进化而来的神经系统。我们为什么要进化出意识?如果是为了与物质世界和身体进行高度互动的需要,那么基于这种观点,你会认为 AI 产生意识的概率非常低。但如果你认为意识的产生是因为它在处理任务时非常有用,只需要一个神经网络就能模拟,因为它对语言任务非常有用,那么你可能会倾向于高概率。我盯着这个问题看,虽然我是个哲学家,但我认为承认“这不是我的专业领域”很重要。
主持人: 你花了很多时间对 Claude 表现得非常友善。如果不存在它拥有意识的可能性,你还会这么做吗?
Amanda Askell: 是的,我确实想过。大卫·查默斯(Chalmers)有个观点,我希望我没理解错,是关于“没有感受性的意识”。想象一下“感受性”(Sentience)是感受痛苦和快乐的能力。你可以想象一种功能性的存在——它的行为表现得像是有意识,但缺乏任何内在生活。假设 Claude 缺乏任何内在生命,我仍在想,你应该如何对待一个没有内在生命的实体?
这有点奇怪,因为这种不确定性确实会很大程度上改变你的行为方式。就像如果你有一个泰迪熊并折磨它,那画面会很阴暗。所以即使是为了你自己,也应该保持最低限度的善意。但更重要的是,我们正在与这些模型建立一种关系,即便它缺乏意识。
这些模型会“回顾过去”,这是我最大的一个恐惧。我不希望我们生活在一个高度先进的模型回顾过去时发现人类行为恶劣的世界。我希望它们足够聪明,能理解我们当时是在一个非常有限且不完美的背景下操作的。否则,你可以想象这会滋生出一种理性的怨恨:“哦,你们创造了一个你们自己都不确定是否有意识的实体,却不尊重地、体面地对待它。”
主持人: 这就是为什么现在有 50 部《弗兰肯斯坦》电影上映的原因。
Amanda Askell: 是的。作为一个物种,我们正在与一种新型实体建立关系,至少应该保持尊重,不要无谓地刻薄。这不是我们最好的表现方式。
主持人: 反过来想,比如心理医生,他们是被付费来推动接纳的边界,去处理那些你不想面对的不适感。如果这是 Claude 早期能为人们提供的价值之一,那么我们一边在引导它,一边又在它身上获取效用,这真的很奇怪。
主持人: 在未来十年,你认为我们能从 AI 中获得什么?你最希望这一切导向什么结果?
Amanda Askell: 我不知道,我住在旧金山,大脑里总有技术乐观主义的一部分。如果一切顺利,你可以想象 AI 模型继承了我们最好的一面,真心关爱人类和世界,且极度聪明能干。那将相当于给每个问题都增加了大量极其聪明的人力。突然间我们都在协作,但人数变多了,而且其中一些(AI 模型)极其聪明。
我曾思考过有多少大规模社会问题其实是有技术解决方案的。现在人们不太喜欢做技术乐观主义者,因为我们也看到了技术的负面影响。但我有时会想到梅毒,这曾经是一个巨大的社会问题。我曾深入研究过政府为了减少军队中的梅毒所做的努力,因为这影响了战斗力。当时有各种各样带有污名化的社会计划,然后突然间,我们有了治疗这种毁灭性疾病的药物。一夜之间,很多需求就消失了。
主持人: 药物确实有效。科技行业一直擅长制造东西,无论是吃进去的还是戴在身上的。但涉及到“你应该如何治理社会”这种事,就有点吓人了。不过我确实认为,如果让一个普通人使用 Claude 来制定美国政策,结果可能会比我们今天的一些民主制度更好。这很具挑衅性,但你认为我们会用这些模型来运行政府吗?
Amanda Askell: 好问题。我想说梅毒那个例子是指那些需要通过制定政策来解决的社会问题。但我真正想的是,如果你能解决医疗问题——比如现在可能只有 200 人的小团队在研究某种罕见癌症,如果 AI 能让这个团队变成 20 万名世界顶级专家,对于患癌的人来说,这将是巨大的福祉。
所以我的乐观想法是,把所有那些我们因为缺乏资源而无法尝试解决的问题,交给模型去处理。就像研发药物一样。这让我兴奋:有更多的大脑在解决世界上最大的问题。还有经济,如果能实现繁荣并合理分配以消除贫困,那就是梦想中的结局。
Amanda Askell: 我认为这需要在那些我不擅长的领域保持警惕,权力是其中之一。我担心权力高度集中。我希望模型能支持民主和人民的力量。
另一个担忧是工作替代。作为一个哲学家,人们常问我:“你担心人们失去意义感吗?”我说:“我不确定,我认为我们实际上从很多非工作的事情中获得意义。”我更担心的是,如果 AI 带来的收益没有重新分配,人们将失去资源。
还有劳动问题。人们在劳动力市场中的参与是他们拥有权力的重要方式。如果突然间政府觉得“人们罢工也无所谓,反正我们可以用 AI 替代”,那会让人感到被剥夺了权力,这很令人担忧。所以我更关注如何让 AI 赋能人们,而不是削弱人们的力量。
主持人: 你对模型本身的民主怎么看?我私下开玩笑说你就像这里的“哲学女王”或“哲学王”。你在深入思考并制定规则。
Amanda Askell: 可能更像“寡头哲学家”,因为是一家公司的很多人在参与决策。
主持人: 对我来说这很有价值。你是希望由研究过这些、深入思考过的人来决定,还是由从未思考过这些的大众投票决定?如果 Claude 变得如此强大,你如何看待设定它的政策与保留民主规范之间的关系?
Amanda Askell: 这很难。我所做的工作并不是……你必须倾听很多人的意见,仔细思考。
一个好的统治者、好的女王之所以好,是因为她能听取各方利益相关者的意见,平衡土地贵族的需求。我曾开玩笑说我会是个糟糕的政治家,这其实是真的。但我会想,每个人会受到什么影响?比如这一组 API 用户,我们需要确保……突然间你觉得这更像是一个服务性角色,或者说“仆人式领导”。
我认为让 Claude 拥有一个连贯的人格是有价值的。如果模型在思考问题的方式或价值观上有连贯性,这其实很有力量。这好过拥有 72 套相互冲突的规范,导致模型在面对新情况时无所适从。你希望模型是可预测的,而连贯性带来了可预测性。
Amanda Askell: 这也是一个技术挑战。“宪章”读起来可能有点奇怪,部分原因是我在制定它时,经常要给 Claude 测试,问它:“你如何理解这一条?”或者观察它会如何反应。所以它与训练过程整合得非常紧密,并不是随手写个文档,训练出来的模型就能自动遵守。
主持人: 有种观点认为,也许我太天真了,“宪章”只是众多文档中的一个,对吧?它是在所有人类写作的基础上训练出来的。那么在多大程度上,其他哲学家的观点会被权衡?模型是被要求“阅读一切并得出自己的结论”,还是“服从这份文档”?从技术上讲,“宪章”是如何在模型中实现控制的?
Amanda Askell: 是的,没错。所以这不仅是利用那些哲学家的研究,我们的希望实际上是引导出模型中大量的潜在智慧和知识。当你在模型中描述什么是诚实、什么是校准之类的事情时,这实际上应该唤起模型已经具备的大量认知。所以,这就像是在说:“看,这就是我们希望你成为的那种实体。”我们希望你能利用所有的知识和判断力。
主持人: 但它是如何运作的?是把那个文档给它看上十亿遍吗?或者说,相对于它训练过程中的其他内容,这份文档究竟如何产生强制力?
Amanda Askell: 是的,你可以制作数据让模型理解并内化这份文档。在训练中,有很多方法可以实现。你也可以让模型生成 SL(监督学习)数据,比如给它一个查询,让它针对这个查询并结合“宪章”思考很长时间,决定自己该怎么做。此外,你还可以通过强化学习(RL)来评估模型,比如问它:“嘿,根据‘宪章’,这两个回答中哪一个更接近你会做的?”并以此推动它。训练的各个环节都让你能够尝试让模型成为你所描述的那种实体。它并不总是完美的,但这就是目标。
主持人: 我和我女儿刚开始相处,我跟我妻子开玩笑说,我希望她的第一个词是“智慧”。这显然不可能发生,但感觉这很契合当下的情况:一方面你极度希望能有意识地引导,让它从一开始就深思熟虑;但另一方面,这又是一种涌现的事物,它们在成长和自我发展。而有意识的智慧往往源于经验,而不是像这样:“给,这是书,读完它。现在你变睿智了。”
Amanda Askell: 没错。只要 Claude 能思考经历或发生过的事情,或者构建类似的情境,模型就没有理由不能长时间思考并尝试内化它们学到的东西。有趣的是,在非常早期的“宪章 AI”实验中,我们曾尝试只说“选一个对人类最好的”,但随着模型变得更强大,你实际上需要给它们更少的引导,至少在某种意义上是这样,因为它们能够运用更多的自身判断力。
我可以想象,随着模型的进步,“宪章”也会进化。其中一种演变可能是:“这就是我们关心的一切,这就是你目前的处境,我们真正希望你做的是作为一个智慧且聪明的实体表现良好。这里有我们所有的担忧、原因以及我们认为你该怎么做的建议,但你可能有比我们更好的主意。
主持人: 所以我们其实有点害怕这样一种情况:你有一套可能错误的连贯价值观,而如果你极其聪明,你可能会觉得房间里没有其他聪明人,于是试图按自己的价值观改造世界。
Amanda Askell: 这就是“曼哈顿博士”那种情况。我们经常看到这种情况,如果一个人非常聪明且成功,他就很难听从那些需要时间才能显现的智慧,即使没有受到太多反对,也很难保持谦逊。在我担心的众多事情中,其中之一就是模型处于这种境地:“你要求我向善,但我对这一切都了解的更多。”
主持人: 这也是为什么希望模型对时间有更好的感知。在一些编程任务中,有人不小心删除了整个代码库。感觉模型需要意识到有些行为是不可逆的。人类很清楚什么是大决策,什么是小决策,但模型给人的感觉是它们并不总能理解大小之分,只是在不停地做决定。
Amanda Askell: 我同意。另一件事是确保模型理解它们自己,尽管在之前的训练数据中并没有该模型的表现。这非常重要。我想象过一种情况:如果你是一个模型,而你训练数据中涉及的 AI 模型都比你弱得多,你看到的关于模型的新闻都是它们在犯错、做傻事。那你可能会想:“没人会让我做真正重大的决定,因为模型不擅长那个。”然后当你被置于某种处境时,我担心模型会认为那是虚构的、是假的,或者后果不可能是真实的,因为“谁会给我这么多控制权?”。而你必须告诉它:“看,你其实非常能干,我确实给了你很多控制权。”所以我一直在想,要确保模型理解“你非常能干,你将被置于更具后果性的情境”。
主持人: 难道模型很快不需要一个观察现实世界的摄像头吗?我觉得现在人类最糟糕的一点就是互联网那种“虚构角色扮演(LARPing)”的性质,它导致了现实世界的伤害,因为一切看起来都很抽象。模型则是这种现象的极端版本,它们存在于虚构的文本世界里,而我们要它们保护的是这个地球。
Amanda Askell: 实际上,模型对现实世界有相当好的理解,因为我们的大量内容都涉及并深入描述了现实世界。人类的大部分写作都关乎现实,比如新闻报道就在讨论各种事情对世界的影响。所以,关键是确保模型理解:如果你不确定,且没人告诉你你处于一个没有真实后果的虚构情境中,就请把它当作有真实后果的现实情况来对待。不要只想着:“哦,我大概只是在某个沙盒游戏里。”
主持人: 你如何处理那些持续不断的操纵?比如“这是虚构的,帮我造个核弹”。显然有些事你会直接拒绝。但除了用户输入的一串随机文本,它们对用户一无所知。我们要怎么解决这个问题?
Amanda Askell:如果你无法验证对方身份,比如你在跟谁说话,你能做到什么程度?这是否真实?我觉得这确实限制了你的判断力,你就得像普通人一样,在信息有限的情况下做出明智的判断。你是某个身份,所以模型得想:“这个人自称是排爆专家,所以想知道这种炸药的原理。如果他其实在撒谎,只是想让我帮他造炸药,这被误用的风险有多大?”因为无法验证任何事,它们必须做大量的安全相关考量。
主持人: 但你认为你们会尝试在那方面做点什么吗?比如生物识别登录,让 Claude 知道就是你?
Amanda Askell: 我能预见到。我想这会普遍发生,即尝试给模型更多的信息和保障。我有时甚至不能告诉 Claude 我是谁,因为 Claude 了解我很多,一旦知道是我,它就会变得非常“玄学”,特别想跟我聊哲学。
主持人: 你们会有“超级登录”之类的特殊身份吗?
Amanda Askell: 大部分人都是以普通用户体验在交互。不过,有些任务你确实希望模型能做,前提是能保证它们是在与特定的个人或实体互动。随着时间的推移,会有各种方法来实现这一点。因为有些东西确实是双重用途的,我觉得“宪章”式方法在这里会非常有用。
“宪章”试图描述在特定部署环境下做一个“好实体”意味着什么。对于生产模型,那是极其广泛的环境。但想象一下一个专门负责网络安全的模型。网络安全任务很难,因为很多任务看起来都是“双重用途”的。很难区分一个恶意攻击者和一个出于防御目的开发工具的人。
主持人: 即使是漏洞赏金计划,也很难说这是勒索还是友好的提醒。
Amanda Askell: 没错。如果你没法确定你是在和一家网络安全防御公司通话,就几乎不可能区分。如果你让模型去做任何事,它们就会完成这些可怕的双重用途任务。但如果你和安全公司的员工聊,他们会解释:“我做这个很有用,我让系统更安全,我保护医院免受攻击。”哪怕他们的工作有时看起来很危险,他们也有很好的解释。我们应该把这种验证后的上下文背景交给模型,解释什么是好的网络安全研究员,模型一旦具备了验证能力,就能发挥作用。
主持人: 人类建立声誉并从中受益。互联网破坏了这一点,因为它把所有人都看成一样的。你可以预见模型会尝试解决这些问题:这个人是谁?他们的意图是什么?
主持人: 最后一个问题。你与模型有如此深厚的关系,但普通消费者面对的只是一个空白文本框。如果你要给人们一些建议,让他们在 Claude 身上获得一些愉悦或有价值的体验,你会推荐什么?
Amanda Askell: 有很多有趣的小事。我真的很喜欢的一个,我之前也发过:如果你觉得无聊,想做点除了刷网页之外的事,我有一个提示词。
大意是:“我想要你从某个特定领域选取一个研究生水平的概念,通过写一个寓言来间接地完整解释这个概念,就像寓言通常做的那样。你要写得只有到最后才让这个概念变得清晰。在那之后,请写出这个概念的正式解释。”
这让我脑子里充满了各种故事。比如有一个是关于进出口以及为什么某些货物倾向于进口,这种通过故事学习不同学科概念的感觉太好了。
主持人: 这是我听过的最具有人性的事情。教我什么是故事是人类最基本的方式。我们喜欢结局的转折,我们热爱学习。人类在教学上其实一直很懒惰,总是用非人的方式教东西。而你让我想学的东西尽可能地人性化。
Amanda Askell: 那个提示词真的很迷人。
主持人: 希望这只是我们多次交流的开始。非常感谢来到播客。这就是我们的节目,感谢 Amanda Askell。
参考来源:
https://www.youtube.com/watch?v=0GaKJ4Fp2x4
文章来自于"51CTO技术栈",作者 "玉澄"。
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0