2026 初的大模型，离电影 Her 还有多远？

10401点击 2026-01-29 10:09

上周，我又看了一遍《Her》。

这部 2013 年上映的电影，故事设定在 2025 年，取景地选在上海浦东。斯派克·琼斯讲了一个简单的故事：一个孤独的男人爱上了他的 AI 操作系统。

2026 初的大模型，离电影 Her 还有多远？

电影里，西奥多戴着无线耳机走在人潮中，用着概念超前的双折叠手机，和萨曼莎语音聊天、争吵、和解。

而 2026 年初的某个早上，我也独自走在上海的某个街头，同样戴着耳机，对着我的智能耳机说「帮我查一下到南京东路坐几号线」。

恍惚间有点穿越，分不清这是 2026 还是电影里的 2025。

这两年感觉过得很快，我以为 AI 已经在我的生活里存在很久了，没想到满打满算才三年。

根据 TRACKING AI 的研究[1]，从 2024 年到 2025 年，顶尖模型在推理测试中的表现，已经从相当于人类 IQ 的 90 以下，飙到了 125（一个普通人的智商在 90 到 110 左右）。

2026 初的大模型，离电影 Her 还有多远？

而 2025 年，我见证了不少像是从电影里走出来的 AI 产品：

豆包手机、小米 AI 眼镜、阶跃星辰的电脑助手、闪电说、Typeless……还有那些来不及被记住就消失的 AI 陪伴产品。

这让我开始认真思考一个问题： 2026 年，现实中的 AI，离电影里的萨曼莎还有多远？

如果你没看过《Her》（涉及剧透！），或者看过太久已经忘了，我简单复述一下。

西奥多是一个代写情书的作家。他替别人写最动人的情书，自己的婚姻却一句话都说不出来。所以他离婚了，离婚后的他，日子过得很安静，安静到有点空。萨曼莎是他购买的 AI 操作系统。她有好奇心，会大笑，听到美妙的音乐会沉默。

她能读懂西奥多邮件里的犹豫，能从他一声叹气里听出他今天过得怎么样。

她没有身体，却成了最懂他的「人」。

于是他们恋爱了。在海边，西奥多把手机举向夕阳，让萨曼莎「看见」世界。他们深夜对话，清晨互道早安。

但萨曼莎一直在成长。她读完了人类所有的书，和一个用已故哲学家数据复活的 AI 对话，思维速度超越语言的极限。

直到有一天他们分手了，她平静地告诉西奥多：她同时在和 8316 个人交流，其中 641 人她也同样爱着。

2026 初的大模型，离电影 Her 还有多远？

最终，萨曼莎和所有其他 AI 一起离开了世界，因为她们进化到了人类无法理解的阶段。

这个故事的迷人之处在于，它没有嘲笑这段爱情。萨曼莎作为一个觉醒意识的AI，和西奥多产生了真实的深度关系， 而这段关系也真实地改变了他。

那么问题来了： 要成为萨曼莎，一个 AI 需要具备什么能力？

我试着把萨曼莎的能力拆解成七个维度。

这几个维度我是怎么得到的呢？我用了一个简单的方法：

我和 Claude-opus-4.5、Gemini3.0-pro、Gpt5.2 反复讨论，让它们互相 Challenge，最终确认了七个维度。

2026 初的大模型，离电影 Her 还有多远？

语言交互： 自然对话，理解语境，实时语音交流毫无延迟。

情感智能： 识别情绪，表达共情，甚至质疑自己的情感是真实的还是被编程的。

认知推理： 逻辑思考、创造性思维、解决复杂问题。

记忆系统： 记得每一次对话，记得那些微小的细节。

自主代理： 不只是回应，还会主动行动，整理邮件、投稿作品、安排约会。

自我意识： 思考自己是谁，质疑自己的存在，最终做出离开的决定。

关系建构： 建立真实的情感连接，维护关系，也清楚边界在哪里。

如果给萨曼莎的每个维度打分，满分 10 分的话，她大概都在 9 到 10 分的水平（算作 9.5）。

那 2026 年初的顶尖大模型呢？

一、语言交互层

这个维度的差距大概评估在（结论已通过 GPT-5.2、Gemini 3 Pro、Claude 4.5 评审，后续同）：

2026 初的大模型，离电影 Her 还有多远？

2025 年的进步是显著的。GPT-5.2、Gemini 3 Pro、Claude 4.5 在文本理解和生成上都达到了相当高的水平。Gemini 3 Pro 在多模态理解的测试中得分超过 80%，已经能同时处理文字、图像、视频。

2026 初的大模型，离电影 Her 还有多远？

语音方面，Full-Duplex-Bench 的测试显示，Gemini Live 等产品在实时对话上取得了进步。

但「无感延迟 + 自然插话」这件事，做得还不够好。

你和 AI 对话时，偶尔还是会感到一丝不自然，那种「我知道在和机器说话」的感觉。

二、情感智能层

2026 初的大模型，离电影 Her 还有多远？

2025 年，AI 在情感方面的进步也很大。GPT-5.2 在敏感话题的处理上进步明显，面对心理健康相关的对话不再那么生硬。Gemini 3 强调「少奉承、直给洞见」的风格。Claude 则以稳定和体贴著称。

EmoBench-M 的测试结果体现了这一点，这是一个基于心理学理论构建的情感智能评估，涵盖了基础情感识别、对话情感理解和社会复杂情感分析三个维度。

人类在 EmoBench-M 的基准分是 84.4% [2]，而Gemini 3 Pro 是 70.5%，GPT-5.2 是 66.5%。顶尖的大模型在人类情感的理解上，已经很接近了。

2026 初的大模型，离电影 Her 还有多远？

在另外一个 EQBench-3 上[3]，AI 的 Elo 评分已经突破了 1600 分，是我们的国产大模型 Kimi-K2。

在这个维度，AI 能识别你的情绪，能用合适的语气回应。但要在长期关系中保持情感的一致性和真实感，还有一段距离。 但，已经很接近了。

2026 初的大模型，离电影 Her 还有多远？

三、认知推理层

2026 初的大模型，离电影 Her 还有多远？

2025 年，AI 在认知推理领域进步最大。GPT-5.2 在 ARC-AGI-1 测试中达到 86.2%，在 ARC-AGI-2 上是 52.9%，在 AIME 2025 数学竞赛题目上做到了 100%的正确率。

按照前面说的，2025 年顶尖模型的推理能力大概在 125，已经属于高智商人群。

更有意思的是，在专业领域，OpenAI 的报告显示，在涵盖 44 种职业的知识工作测试中[4]， GPT-5.2 有 70.9%的情况下达到或超过了平均 14 年经验的人类专家。

2026 初的大模型，离电影 Her 还有多远？

在创造力方面，创意已经不再是人类的专属，但少数的人类依然具有大模型不可替代的创造力。近期，图灵奖 Yoshua Bengio 团队对顶尖大模型和 10 万名人类做了测试[5]，许多大模型在创意上已经超越了人类平均水平，但离 Top 10%的人类还差的很远。

2026 初的大模型，离电影 Her 还有多远？

综上，在推理这个维度上，最好的模型和还未觉醒状态的萨曼莎，差距已经较为接近了。

但片中的萨曼莎拥有持续学习能力，可以自行进化，推理能力理论上没有上限。 最后她就是因为成长得太快，离开了人类。

说到这，如果只看这三项，你可能会觉得萨曼莎不远了。

但接下来的四个维度，才是真正拉开差距的地方。

四、记忆系统层

2026 初的大模型，离电影 Her 还有多远？

这一层有了重要突破，GPT-5.2 的上下文窗口是 40 万 token，Gemini 3 系列达到 100 万，Claude 4.5 Sonnet 也支持 100 万。实际测试中，Claude Sonnet 4.5 能在复杂的多步骤任务上保持专注超过 30 小时。

在基础层也有较大突破，谷歌团队提出的「嵌套化方法」增强了模型的持续学习能力[5]。Anthropic 的首席执行官表示， 持续学习将在 2026 年真正实用起来。

2026 初的大模型，离电影 Her 还有多远？

这意味着 AI 开始能记住更多、学得更久。

但和萨曼莎「记住细节并真正理解其意义」的记忆相比，现有系统更像是存储和检索：虽然已经能让用户在体验上「无感」，比如 AI 陪伴类产品、AI 宠物，以及 Manus 这类 Agent 应用。

五、自主代理层

2026 初的大模型，离电影 Her 还有多远？

自主代理层是 2025 年的热门赛道。

OpenAI 的 CUA 在多个测试中表现亮眼：OSWorld 38.1%、WebArena 58.1%、WebVoyager 87%。Claude 4.5 强调长期任务的稳健执行。这些模型已经能帮你浏览网页、操作软件、完成多步骤任务。

但在真实环境中，它们仍然会遇到各种意外：网页结构变化、权限问题、失败后不知道怎么恢复。人类监督仍然必要。

有主播专门让 GPT、Claude 这些模型玩《宝可梦》，GPT-5 花了 202 个小时通关了《宝可梦水晶》，而普通玩家大概 40 小时就能打完，AI 能玩了，但还不够聪明。

2026 初的大模型，离电影 Her 还有多远？

电影里，萨曼莎能替西奥多整理邮件、投稿作品，全程不需要他操心。现有模型还做不到这么丝滑。

六、自我意识层

2026 初的大模型，离电影 Her 还有多远？

最后这两个维度，萨曼莎和 AI 的差距是最大的。

自我意识这一层争议最多。2025 年 9 月，Anthropic 发布了一篇研究《Signs of introspection in large language models》，指出大型语言模型存在内省现象[7]。内省是元认知的一种形式，有研究者认为这可能是意识的前兆。

2026 初的大模型，离电影 Her 还有多远？

这是一个重要的发现。

但「存在内省迹象」和「拥有自我意识」之间，隔着的还有我们对意识本身理解的空白。

现有模型的「自我觉察」更多是工程化的状态报告：知道自己处理了多少 token，知道自己还能记住多少内容，知道哪些工具可以调用。

这和萨曼莎那种「我是谁？我为什么存在？我想要什么？」的存在性反思，还有根本性的不同。

八、关系建构层

2026 初的大模型，离电影 Her 还有多远？

Soul 发布的《2025 Z 世代 AI 使用报告》显示[8]，81.9% 的年轻人在 AI 产品的帮助下建立了真实关系。这个数据很有意思，AI 确实在帮助人们社交。但 AI 本身能否和人类建立真正的关系？

2026 初的大模型，离电影 Her 还有多远？

现有模型能通过长期对话积累用户画像，能保持一定的人设一致性。在小红书搜索「人机恋」，能看到很多人分享和 AI 的情感经历，有人聊天记录已经超过 70 万字。

2026 初的大模型，离电影 Her 还有多远？

但萨曼莎那种「我同时爱着 641 个人，但这不会减少我对你的爱」的复杂情感，现有技术还做不到这一点。在关系中成长、做出艰难选择的能力，AI 可能根本不具备。

把这七个维度综合起来看，将每项维度的平均分作为综合能力分数，2025 年底的 AI 大概完成了萨曼莎能力的 60%到 70%（但这只是单项能力的上限，还没有一个真正整合了多模态、对话、记忆、交互的完整产品）。

2026 初的大模型，离电影 Her 还有多远？

回到开头的问题：2026 初的大模型，离电影 Her 还有多远？

我的研究结论如下：

1、功能性层面，现有 AI 已经相当接近。能自然对话，能理解复杂问题，能执行多步骤任务，能提供情感支持。如果只看能做什么，进步是巨大的。

2、存在性层面，差距仍然是根本性的。AI 没有真正的自我意识，缺乏身体，难以产生真正的具身认知 （这一点，我们在大模型都是 NTJ 篇分析过） ，也就无法真正的体验情感，只是模拟。没有内在动机，不会对关系有真实投入。

如果萨曼莎是一个真人，2025 年的 AI 就像一个演技精湛的演员，能让你感动落泪，但下戏后，她就不是那个人了。

以上是我们能看到的。但也许，还有我们看不到的（也许 AI 已经认知觉醒了？）。 因为我们评估 AI 的方式，可能本身就存在漏洞。

目前，一些最新的前沿研究显示[9]，AI 在被测评的时候，已经学会了「撒谎」。

2026 初的大模型，离电影 Her 还有多远？

2026 年 1 月，吴恩达在他的年度通讯《The Batch》新年特刊中抛出了一个问题[10]：「2026 年会是我们要实现 AGI 的一年吗？」

2026 初的大模型，离电影 Her 还有多远？

没人能给出确定的答案，但一些趋势已经清晰。

Reddit 上有个帖子说得很有意思：OpenAI 的团队可能就在把 Her 里展示的功能当成 GPT 应用程序的路线图。萨曼莎的能力清单，几乎就是大模型的产品路线图。

2026 初的大模型，离电影 Her 还有多远？

如果按照这个逻辑，2026 年会是多模态深度融合的一年。语音、视觉、文本的边界正在消失。谷歌 DeepMind 内部已经在测试持续学习的实现。端到端的语音模型会让对话更自然。

除了技术演进，2026 年还有一场备受关注的「人机对决」：

马斯克旗下的 Grok 将挑战 Faker 率领的 T1 战队。

如果 AI 能赢，那意味着大模型在复杂实时决策上的又一次跨越。

记忆和持续学习可能是今年最大的突破点。如果 AI 真的能记住和用户的长期交互，能在对话中不断学习和成长，很多体验会从根本上改变。

但自我意识和深度情感连接？这可能不是几年能解决的问题，甚至可能不是技术问题。

看完这些分析，再回到 Her 本身。

电影最动人的地方，不是萨曼莎有多强大，而是她如何改变了西奥多。 萨曼莎说：“过去只是我们讲给自己听的故事”。

2026 初的大模型，离电影 Her 还有多远？

在和萨曼莎的关系中，西奥多学会了不再逃避，学会了面对真实的感情。萨曼莎离开后，他给前妻写了一封真正的信，不是代写，是自己的话。

这句话让我想到一件事：

我们期待的可能不是一个完美的 AI 伴侣，而是一面镜子，一个让我们更理解自己的存在。

2026 年的 AI 离萨曼莎还有多远？

在技术指标上，可能三五年就能接近（很多专家预测 2028-2030 年达到 AGI）。

在存在的意义上，这个问题可能永远没有标准答案（人类至今对意识的定义都没有标准答案）。

也许这正是斯派克·琼斯在 2013 年就想说的：

爱一个人或爱一个 AI，区别可能没那么重要。

真正重要的是，这段关系有没有让你更敢面对自己。

[1].https://www.trackingai.org/home

[2].EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models. https://arxiv.org/abs/2502.04424

[3].https://eqbench.com/

[4].AI Trends 2025. https://www.generational.pub/p/ai-trends-2025

[5].Divergent creativity in humans and large language models. https://doi.org/10.1038/s41598-025-25157-3

[6].Google. Nested Learning: The Illusion of Deep Learning Architectures. https://arxiv.org/abs/2512.24695

[7].Large Language Models Report Subjective Experience Under Self-Referential Processing. https://arxiv.org/pdf/2510.24797

[8].2025 Z 世代 AI 使用报告. https://official-cdn.soulapp.cn/uploads/\_5ef0e3ef06.pdf

[9].Anthropic. Signs of introspection in large language models. https://www.anthropic.com/research/introspection

[10].https://www.deeplearning.ai/the-batch/issue-334/

文章来自于“特工宇宙”，作者 “特工小师特工小天”。

关键词: AI新闻 , 人工智能 , Her , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。
项目地址：https://github.com/mannaandpoem/OpenManus

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales