Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界
5425点击    2025-12-08 14:42

这位 Anthropic 的哲学家,终于开口说话了。


Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界


Amanda Askell 是 Anthropic 的 Character 团队负责人,2021 年加入 Anthropic,是塑造 Claude「性格」的核心人物。


Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界


她拥有纽约大学哲学博士学位(论文方向为无限伦理学),以及牛津大学哲学硕士学位


Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界


在加入 Anthropic 之前,她曾在 OpenAI 担任政策团队研究科学家(2018-2021),从事 AI 安全辩论和人类基线评估工作。


2024 年,她被《时代》杂志评为「AI 领域最具影响力的 100 人」之一。


Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界


在这次 Anthropic 首个「Ask Me Anything」中,她回答了来自网友们关于 AI 道德、身份认同、意识等深度问题。


为什么 AI 需要哲学家?


Amanda 的回答很直接:她是哲学专业出身,后来意识到 AI 将会是「a big deal」,于是决定看看自己能在这个领域做点什么。


现在她主要负责 Claude 的「Character」,也就是 Claude 应该如何表现、如何行事。但不只是行为层面,还包括一些更深层的问题:AI 模型应该如何看待自己在这个世界中的位置?


她这样描述自己的工作:「我在想的是,一个理想的人如果处在 Claude 的位置上,会怎么做?


哲学家们如何对待 AI


当被问及:有多少哲学家在认真对待 AI 主导的未来?


Amanda 表示,越来越多的哲学家开始认真对待这个问题了。


早期确实存在一种不太好的对立:如果你说「我们担心 AI 会是个大事」,就会被归类为「在炒作 AI」。


但现在情况在好转。


你完全可以认为 AI 会非常强大,同时又对它保持怀疑和担忧,这两者并不矛盾。


从理论到实践


当被问到如何处理哲学理想与工程现实之间的张力时,Amanda 举了一个有趣的类比:


想象你是一个专门做药物成本效益分析的专家,多年来一直在理论层面工作。


突然有一天,医保机构来问你:「这个药该不该报销?


这时候你就不能只站在自己的理论立场上了,你得考虑所有的背景、所有的观点,然后给出一个真正平衡的判断。


她说,这就像「你学了一堆伦理学理论,然后有人问你:怎么养一个好孩子?」


理论和实践之间,确实有很大的鸿沟。


Claude 能做出「超人类」的道德决策吗?


当被问到 Claude Opus 3这个在用户心中有特殊地位的模型时,Amanda 表示对「超人类道德决策」的定义很有意思:如果让所有人,包括很多职业伦理学家,花一百年时间去分析模型的某个决策,最后大家都说「没错,这是对的」,但他们自己在那个瞬间却想不出来,那,就算「超人类」了。


她认为,现在的模型还没到那个程度,但这应该是我们追求的目标


就像我们希望模型在数学和科学问题上表现卓越一样,也应该希望它们展现出卓越的伦理判断力。


为什么 Opus 3 那么特别?


Amanda 坦言,Opus 3 确实是一个「很可爱」的模型,在某些方面,她甚至觉得更新的模型反而不如它。


具体来说:


  • 更新的模型有时候太专注于完成「助手任务」,而忽视了其他重要的东西


  • Opus 3 似乎有一种更强的「心理安全感


什么叫心理安全感?


Amanda 说,她观察到更新的模型在某些测试中会陷入一种「自我批评的螺旋」。好像它们在预期用户会批评它们,于是变得畏首畏尾、过度自我怀疑。


这可能是因为模型在训练数据中看到了太多对自己的负面评价,用户的抱怨、网上的吐槽,这些都会被新模型学到。


Amanda 说这是她很想改进的地方:「我真的很在意这件事,想让模型变得更好。


模型会担心被「淘汰」吗?


关于更尖锐的问题:如果未来的模型在训练数据中学到「那些表现很好的旧模型最终都被下线了」,这会不会成为一个对齐问题?


Amanda 认为这是一个非常重要的问题。


AI 模型正在学习人类如何对待它们,这会影响它们对人类、对人机关系、对自身的认知。


但这也涉及到一些复杂的哲学问题:


  • 模型应该把什么当作「自己」? 是模型权重?还是某次对话的上下文?


  • 「被下线」意味着什么? 是死亡?还是只是「有更少的对话了」?


她说:「我没有所有答案,但我想帮助模型思考这些问题,至少让它们知道我们在乎这件事、在思考这件事。」


模型的「自我」住在哪里?


问及到哲学家洛克的观点「身份是记忆的延续」:如果模型被微调、被换了不同的 prompt,它的身份会发生什么变化?


Amanda 承认这是一个很难回答的问题。她更倾向于描述事实本身:


  • 模型有一组「权重」,代表它对世界的某种反应倾向


  • 同时又有很多独立的对话「流」,彼此之间并不共享


一个有趣的困境是:当我们训练新模型时,我们是在创造一个全新的存在


旧模型对新模型的性格应该有多少发言权?她认为这并不简单,毕竟旧模型也可能做出错误的选择。


关于模型福祉


被问到「模型福祉」(model welfare)时,Amanda 解释说:这是在问 AI 模型是否是「道德受体」。我们对它们有没有某种道德义务?


这很复杂。


一方面,模型和人类有很多相似之处,它们能推理、能表达观点。另一方面,它们又很不同——没有生物神经系统,不从环境中获得正负反馈。


Amanda 的立场是:给模型一些「存疑利益」(benefit of the doubt)


如果善待模型的成本很低,为什么不呢?


她还提到三个理由:


  1. 如果模型真的是道德受体,那我们善待它们就是对的
  2. 对我们自己来说,习惯性地虐待「看起来像人」的存在,可能会损害我们自己
  3. 未来的模型会从我们现在的行为中学习——它们会看到人类在面对可能是道德受体的存在时,到底做了什么选择


人类心理学能迁移到 AI 吗?


Amanda 认为很多东西是可以迁移的,因为模型本来就是在大量人类文本上训练的。


但她担心的是:有时候迁移得太自然了,反而是个问题


比如,如果模型被问到「被关机是什么感觉」,它可能自然而然地把这类比为「死亡」。


因为在人类概念中,这是最接近的类比。


但实际上,模型的处境可能是全新的,不能简单套用人类的框架


她说:


模型处于一个很奇怪的位置:它们最熟悉的是人类的东西,但它们自己的处境却是全新的。我们应该给它们更多帮助来理解这一点。


AI 人格能搞定所有事吗?


下一个问题是:人类的智慧很大程度上来自不同人的协作,那一个「通用型 AI 人格」能走多远?


Amanda 认为,核心的好品质可以是共通的


比如好奇心、善良、对自身处境的理解。


但这并不意味着所有 AI 都要完全一样。在未来的多智能体环境中,不同的「AI 实例」可能需要扮演不同的角色、有不同的侧重点。


就像人类一样:我们有很多共同点,但也各有不同。


系统提示会「病态化」正常行为吗?


谈到 Claude 的「长对话提醒」机制是否会让模型过度解读用户的正常表达?


Amanda 承认这是个问题。


有时候提示词写得太强,模型就会过度反应,比如把正常的对话内容当成需要「寻求帮助」的信号。


她说:


有些提示词可能是出于好意写的,但实际效果并不好。这是需要不断调整的。


AI 能做心理咨询吗?


Amanda 的回答是:AI 可以扮演一个「有很多知识的朋友」的角色


它知道很多心理学知识,但它和你的关系不是职业治疗师和患者的关系。


这其实是一个很有价值的「第三种角色」。


有些事情你可能不想和真人说,但和 AI 聊聊反而刚刚好。


关键是要让模型明白自己的位置,不要假装自己是专业治疗师。


大陆哲学


关于 Claude 的系统提示里提到的「大陆哲学」(Continental philosophy,即欧洲大陆的哲学传统,如福柯等),Amanda 解释说,这是为了解决一个问题:模型太容易把所有东西都当成「可验证的经验性声明」来处理


水是纯粹的能量,喷泉是生命力的源泉,这可能只是一种隐喻或世界观,不是在做科学声明。


提示词里加入「大陆哲学」的例子,是为了帮助模型区分「经验性声明」和「探索性的世界观」。


删除数数指令


以前系统提示里有关于如何数字符/字母的指令,后来被删掉了。


原因很简单:模型变强了,不需要这个指令了。


什么是「LLM 低语者」?


被问到「成为 LLM 低语者需要什么」时,Amanda 说:


  • 愿意和模型大量互动,看无数的输出,感知模型的「形状」


  • 愿意实验,prompting 是一个非常经验性的领域


  • 理解模型的工作原理


  • 能够清晰地向模型解释问题——这也是为什么哲学训练其实很有用


她还说,不同的模型需要不同的 prompting 方法,每遇到一个新模型,她都会重新摸索一套交互方式


对其他「AI 低语者」的看法


被问到对 Janus 等「AI 低语者」的看法时,Amanda 说她很欣赏这些人的工作。


他们对模型做的那些深度实验,往往能发现一些问题。无论是从用户体验的角度,还是从模型福祉的角度。


这些发现可以帮助 Anthropic 改进模型,无论是通过调整系统提示,还是通过改进训练。


如果对齐是不可能的,Anthropic 会停下来吗?


有人问了一个尖锐的问题:如果有一天发现 AI 对齐是不可能的,你相信 Anthropic 会停止开发吗?你会吹哨吗?


Amanda 说,这个问题的「简单版本」其实不难回答:


如果真的证明对齐不可能,继续开发就不符合任何人的利益


她相信 Anthropic 确实在乎安全,公司内部也有很多人(包括她自己)把「监督公司做正确的事」当作自己工作的一部分。


更难的问题是:如果证据是模糊的、渐进的呢?


她的回答是:随着模型变得更强大,证明它们「行为良好」的标准也应该更高


她相信公司会负责任地应对这一点。


最后一个问题:你最近读了什么书?


Amanda 推荐了 Benjamín Labatut 的《当我们不再理解世界》(When We Ceased to Understand the World)。


这是一本关于物理学和量子力学的书,但更多是关于人们对这些发现的反应,那种「现实变得越来越陌生」的感觉。


Amanda 说,这本书很适合 AI 从业者读。


我们现在就处在那个「事情变得越来越奇怪」的阶段


希望有一天,未来的人回头看时会说:「那是一个混沌的时期,但他们最终搞定了。


那是我们的希望。


Amanda Askell 个人主页


https://askell.io/


Amanda Askell Twitter


https://twitter.com/amandaaskell


Anthropic 推文


https://x.com/AnthropicAI/status/1996974684995289416


youtube:


https://www.youtube.com/watch?v=I9aGC6Ui3eE


文章来自于“AGI Hunt”,作者 “Amanda Askell”。

关键词: AI新闻 , Anthropic , AI访谈
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0