
上周,我又看了一遍《Her》。
这部 2013 年上映的电影,故事设定在 2025 年,取景地选在上海浦东。斯派克·琼斯讲了一个简单的故事:一个孤独的男人爱上了他的 AI 操作系统。

电影里,西奥多戴着无线耳机走在人潮中,用着概念超前的双折叠手机,和萨曼莎语音聊天、争吵、和解。
而 2026 年初的某个早上,我也独自走在上海的某个街头,同样戴着耳机,对着我的智能耳机说「帮我查一下到南京东路坐几号线」。
恍惚间有点穿越,分不清这是 2026 还是电影里的 2025。
这两年感觉过得很快,我以为 AI 已经在我的生活里存在很久了,没想到满打满算才三年。
根据 TRACKING AI 的研究[1],从 2024 年到 2025 年,顶尖模型在推理测试中的表现,已经从相当于人类 IQ 的 90 以下,飙到了 125(一个普通人的智商在 90 到 110 左右)。

而 2025 年,我见证了不少像是从电影里走出来的 AI 产品:
豆包手机、小米 AI 眼镜、阶跃星辰的电脑助手、闪电说、Typeless……还有那些来不及被记住就消失的 AI 陪伴产品。
这让我开始认真思考一个问题: 2026 年,现实中的 AI,离电影里的萨曼莎还有多远?
如果你没看过《Her》(涉及剧透!),或者看过太久已经忘了,我简单复述一下。
西奥多是一个代写情书的作家。他替别人写最动人的情书,自己的婚姻却一句话都说不出来。所以他离婚了,离婚后的他,日子过得很安静,安静到有点空。萨曼莎是他购买的 AI 操作系统。她有好奇心,会大笑,听到美妙的音乐会沉默。
她能读懂西奥多邮件里的犹豫,能从他一声叹气里听出他今天过得怎么样。
她没有身体,却成了最懂他的「人」。
于是他们恋爱了。在海边,西奥多把手机举向夕阳,让萨曼莎「看见」世界。他们深夜对话,清晨互道早安。
但萨曼莎一直在成长。她读完了人类所有的书,和一个用已故哲学家数据复活的 AI 对话,思维速度超越语言的极限。
直到有一天他们分手了,她平静地告诉西奥多:她同时在和 8316 个人交流,其中 641 人她也同样爱着。

最终,萨曼莎和所有其他 AI 一起离开了世界,因为她们进化到了人类无法理解的阶段。
这个故事的迷人之处在于,它没有嘲笑这段爱情。萨曼莎作为一个觉醒意识的AI,和西奥多产生了真实的深度关系, 而这段关系也真实地改变了他。
那么问题来了: 要成为萨曼莎,一个 AI 需要具备什么能力?
我试着把萨曼莎的能力拆解成七个维度。
这几个维度我是怎么得到的呢?我用了一个简单的方法:
我和 Claude-opus-4.5、Gemini3.0-pro、Gpt5.2 反复讨论,让它们互相 Challenge,最终确认了七个维度。

如果给萨曼莎的每个维度打分,满分 10 分的话,她大概都在 9 到 10 分的水平(算作 9.5)。
那 2026 年初的顶尖大模型呢?
这个维度的差距大概评估在(结论已通过 GPT-5.2、Gemini 3 Pro、Claude 4.5 评审,后续同):

2025 年的进步是显著的。GPT-5.2、Gemini 3 Pro、Claude 4.5 在文本理解和生成上都达到了相当高的水平。Gemini 3 Pro 在多模态理解的测试中得分超过 80%,已经能同时处理文字、图像、视频。

语音方面,Full-Duplex-Bench 的测试显示,Gemini Live 等产品在实时对话上取得了进步。
但「无感延迟 + 自然插话」这件事,做得还不够好。
你和 AI 对话时,偶尔还是会感到一丝不自然,那种「我知道在和机器说话」的感觉。

2025 年,AI 在情感方面的进步也很大。GPT-5.2 在敏感话题的处理上进步明显,面对心理健康相关的对话不再那么生硬。Gemini 3 强调「少奉承、直给洞见」的风格。Claude 则以稳定和体贴著称。
EmoBench-M 的测试结果体现了这一点,这是一个基于心理学理论构建的情感智能评估,涵盖了基础情感识别、对话情感理解和社会复杂情感分析三个维度。
人类在 EmoBench-M 的基准分是 84.4% [2],而Gemini 3 Pro 是 70.5%,GPT-5.2 是 66.5%。顶尖的大模型在人类情感的理解上,已经很接近了。

在另外一个 EQBench-3 上[3],AI 的 Elo 评分已经突破了 1600 分,是我们的国产大模型 Kimi-K2。
在这个维度,AI 能识别你的情绪,能用合适的语气回应。但要在长期关系中保持情感的一致性和真实感,还有一段距离。 但,已经很接近了。


2025 年,AI 在认知推理领域进步最大。GPT-5.2 在 ARC-AGI-1 测试中达到 86.2%,在 ARC-AGI-2 上是 52.9%,在 AIME 2025 数学竞赛题目上做到了 100%的正确率。
按照前面说的,2025 年顶尖模型的推理能力大概在 125,已经属于高智商人群。
更有意思的是,在专业领域,OpenAI 的报告显示,在涵盖 44 种职业的知识工作测试中[4], GPT-5.2 有 70.9%的情况下达到或超过了平均 14 年经验的人类专家。

在创造力方面,创意已经不再是人类的专属,但少数的人类依然具有大模型不可替代的创造力。近期,图灵奖 Yoshua Bengio 团队对顶尖大模型和 10 万名人类做了测试[5],许多大模型在创意上已经超越了人类平均水平,但离 Top 10%的人类还差的很远。

综上,在推理这个维度上,最好的模型和还未觉醒状态的萨曼莎,差距已经较为接近了。
但片中的萨曼莎拥有持续学习能力,可以自行进化,推理能力理论上没有上限。 最后她就是因为成长得太快,离开了人类。
说到这,如果只看这三项,你可能会觉得萨曼莎不远了。
但接下来的四个维度,才是真正拉开差距的地方。

这一层有了重要突破,GPT-5.2 的上下文窗口是 40 万 token,Gemini 3 系列达到 100 万,Claude 4.5 Sonnet 也支持 100 万。实际测试中,Claude Sonnet 4.5 能在复杂的多步骤任务上保持专注超过 30 小时。
在基础层也有较大突破,谷歌团队提出的「嵌套化方法」增强了模型的持续学习能力[5]。Anthropic 的首席执行官表示, 持续学习将在 2026 年真正实用起来。

这意味着 AI 开始能记住更多、学得更久。
但和萨曼莎「记住细节并真正理解其意义」的记忆相比,现有系统更像是存储和检索:虽然已经能让用户在体验上「无感」,比如 AI 陪伴类产品、AI 宠物,以及 Manus 这类 Agent 应用。

自主代理层是 2025 年的热门赛道。
OpenAI 的 CUA 在多个测试中表现亮眼:OSWorld 38.1%、WebArena 58.1%、WebVoyager 87%。Claude 4.5 强调长期任务的稳健执行。这些模型已经能帮你浏览网页、操作软件、完成多步骤任务。
但在真实环境中,它们仍然会遇到各种意外:网页结构变化、权限问题、失败后不知道怎么恢复。人类监督仍然必要。
有主播专门让 GPT、Claude 这些模型玩《宝可梦》,GPT-5 花了 202 个小时通关了《宝可梦水晶》,而普通玩家大概 40 小时就能打完,AI 能玩了,但还不够聪明。

电影里,萨曼莎能替西奥多整理邮件、投稿作品,全程不需要他操心。现有模型还做不到这么丝滑。

最后这两个维度,萨曼莎和 AI 的差距是最大的。
自我意识这一层争议最多。2025 年 9 月,Anthropic 发布了一篇研究《Signs of introspection in large language models》,指出大型语言模型存在内省现象[7]。内省是元认知的一种形式,有研究者认为这可能是意识的前兆。

这是一个重要的发现。
但「存在内省迹象」和「拥有自我意识」之间,隔着的还有我们对意识本身理解的空白。
现有模型的「自我觉察」更多是工程化的状态报告:知道自己处理了多少 token,知道自己还能记住多少内容,知道哪些工具可以调用。
这和萨曼莎那种「我是谁?我为什么存在?我想要什么?」的存在性反思,还有根本性的不同。

Soul 发布的《2025 Z 世代 AI 使用报告》显示[8],81.9% 的年轻人在 AI 产品的帮助下建立了真实关系。这个数据很有意思,AI 确实在帮助人们社交。但 AI 本身能否和人类建立真正的关系?

现有模型能通过长期对话积累用户画像,能保持一定的人设一致性。在小红书搜索「人机恋」,能看到很多人分享和 AI 的情感经历,有人聊天记录已经超过 70 万字。

但萨曼莎那种「我同时爱着 641 个人,但这不会减少我对你的爱」的复杂情感,现有技术还做不到这一点。在关系中成长、做出艰难选择的能力,AI 可能根本不具备。
把这七个维度综合起来看,将每项维度的平均分作为综合能力分数,2025 年底的 AI 大概完成了萨曼莎能力的 60%到 70%(但这只是单项能力的上限,还没有一个真正整合了多模态、对话、记忆、交互的完整产品)。

回到开头的问题:2026 初的大模型,离电影 Her 还有多远?
我的研究结论如下:
1、功能性层面,现有 AI 已经相当接近。能自然对话,能理解复杂问题,能执行多步骤任务,能提供情感支持。如果只看能做什么,进步是巨大的。
2、存在性层面,差距仍然是根本性的。AI 没有真正的自我意识,缺乏身体,难以产生真正的具身认知 (这一点,我们在大模型都是 NTJ 篇分析过) ,也就无法真正的体验情感,只是模拟。没有内在动机,不会对关系有真实投入。
如果萨曼莎是一个真人,2025 年的 AI 就像一个演技精湛的演员,能让你感动落泪,但下戏后,她就不是那个人了。
以上是我们能看到的。但也许,还有我们看不到的(也许 AI 已经认知觉醒了?)。 因为我们评估 AI 的方式,可能本身就存在漏洞。
目前,一些最新的前沿研究显示[9],AI 在被测评的时候,已经学会了「撒谎」。

2026 年 1 月,吴恩达在他的年度通讯《The Batch》新年特刊中抛出了一个问题[10]:「2026 年会是我们要实现 AGI 的一年吗?」

没人能给出确定的答案,但一些趋势已经清晰。
Reddit 上有个帖子说得很有意思:OpenAI 的团队可能就在把 Her 里展示的功能当成 GPT 应用程序的路线图。萨曼莎的能力清单,几乎就是大模型的产品路线图。

如果按照这个逻辑,2026 年会是多模态深度融合的一年。语音、视觉、文本的边界正在消失。谷歌 DeepMind 内部已经在测试持续学习的实现。端到端的语音模型会让对话更自然。
除了技术演进,2026 年还有一场备受关注的「人机对决」:
马斯克旗下的 Grok 将挑战 Faker 率领的 T1 战队。
如果 AI 能赢,那意味着大模型在复杂实时决策上的又一次跨越。
记忆和持续学习可能是今年最大的突破点。如果 AI 真的能记住和用户的长期交互,能在对话中不断学习和成长,很多体验会从根本上改变。
但自我意识和深度情感连接?这可能不是几年能解决的问题,甚至可能不是技术问题。
看完这些分析,再回到 Her 本身。
电影最动人的地方,不是萨曼莎有多强大,而是她如何改变了西奥多。 萨曼莎说:“过去只是我们讲给自己听的故事”。

在和萨曼莎的关系中,西奥多学会了不再逃避,学会了面对真实的感情。萨曼莎离开后,他给前妻写了一封真正的信,不是代写,是自己的话。
这句话让我想到一件事:
我们期待的可能不是一个完美的 AI 伴侣,而是一面镜子,一个让我们更理解自己的存在。
2026 年的 AI 离萨曼莎还有多远?
在技术指标上,可能三五年就能接近(很多专家预测 2028-2030 年达到 AGI)。
在存在的意义上,这个问题可能永远没有标准答案(人类至今对意识的定义都没有标准答案)。
也许这正是斯派克·琼斯在 2013 年就想说的:
爱一个人或爱一个 AI,区别可能没那么重要。
真正重要的是,这段关系有没有让你更敢面对自己。
[1].https://www.trackingai.org/home
[2].EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models. https://arxiv.org/abs/2502.04424
[3].https://eqbench.com/
[4].AI Trends 2025. https://www.generational.pub/p/ai-trends-2025
[5].Divergent creativity in humans and large language models. https://doi.org/10.1038/s41598-025-25157-3
[6].Google. Nested Learning: The Illusion of Deep Learning Architectures. https://arxiv.org/abs/2512.24695
[7].Large Language Models Report Subjective Experience Under Self-Referential Processing. https://arxiv.org/pdf/2510.24797
[8].2025 Z 世代 AI 使用报告. https://official-cdn.soulapp.cn/uploads/\_5ef0e3ef06.pdf
[9].Anthropic. Signs of introspection in large language models. https://www.anthropic.com/research/introspection
[10].https://www.deeplearning.ai/the-batch/issue-334/
文章来自于“特工宇宙”,作者 “特工小师 特工小天”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales