全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

7421点击 2025-12-16 10:37

最近，网友们已经被AI「手指难题」逼疯了。给AI一支六指手，它始终无法正确数出到底有几根手指！说吧AI，你是不是在嘲笑人类？其实这背后，暗藏着Transformer架构的「阿喀琉斯之踵」……

最近几天，整个互联网陷入阴影——

AI，在用数手指嘲笑人类。

人类给AI的这道题，指令很简单：在图中的每根手指上，依次标出数字。

当然题目中有个小陷阱，就是这只手其实有六个手指。

结果，Nano Banana Pro理直气壮地在这只手上标出1、2、3、4、5，直接略过了其中一只手指。

这荒诞的场面，再一次震惊了网友们。

AI模型是真的这么傻吗？

很多人不这么认为——或许，AI只是在装傻，调戏人类而已。

很有可能，它是在嘲笑这些试图测试自己的劣质人类。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

为了通过图灵测试，AI必须让自己变得愚蠢一点，才能看起来像人类。如果太聪明，人类就破防了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

GPT-5.2，同样翻车了

有人也拿这个问题去问GPT-5.2，而且prompt里明明白白写了图里有六根手指。

但GPT-5.2面对「图里有几根手指」的问题，还是斩钉截铁地说：五根！

理由就是：人类有五根手指，所以图里没有五根手指就是错的。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

还有人把手指画得奇形怪状，人类都要难倒的地步。

但面对这张图，Nano Banana Pro依然斩钉截铁地回答：5根，我确信，就是5根！

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

总之，无论画成什么样子，AI始终无法数出6根手指。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

为了让AI数对手指，网友们疯了

有人不信邪了，非要让模型画对数字不可。

他直接给出指令：把4左移一个手指，把5左移一个手指，然后在大拇指那里写上6。

够清晰了吧？结果，模型照样不听，直接把3给弄没了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

网友直接原地被逼疯。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

其他网友为了帮他，奇招百出，比如让模型把手画的数字改成电子版的，总算成功了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

也有人告诉模型依次在小指到大拇指上放数字，不要重复，结果也成功了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

AI数手指，为什么数不对

所以，为什么AI很难数对几根手指呢？

有人给出这样的解释：AI找的是基本形状，而非精确图像，然后将该形状代表的传统认知和实际外观进行比较。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

有人猜，是否能告诉AI这不是手，而是不规则物体，从而规避掉AI大脑中的「偏见」？

结果，他果然成功了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

网友们随后试验了各种奇形怪状的手，果然，这回Gemini就答对了。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

或许AI之前已经被训练了识别特定的emoji，如果换成别的图，它反而可以做正确的视觉推理了。

手指难题，AI目前的大bug

这次AI数手指大翻车，也揭露了当前模型的一个关键缺陷——思考的机械和割裂。

很有可能，文本模型看到指令后，内部逻辑是这样的：「手有五根手指，所以需要五个数字。」

所以，即使它「看到」了六指图像，它的视觉识别能力也不足以纠正这种根深蒂固的文本认知。

为什么AI如此执着于「五指」的概念？这是源于它训练数据的基本特征。

在人类手部图像数据中，五指手占据绝对主导地位。

而模型已经从海量数据中学到「人手=五指」这一强关联，以至于当情况偏离这一情况时，模型会视为异常，自动纠错，而并不会认为自己需要理解一个新事实。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

具体来说，当前AI视觉系统的工作方式，本质上是将复杂场景简化为一组可识别模式。

当面对像六指手这样同时包含常见元素（手部）和罕见特征（多指）的图像时，系统倾向于将其强行纳入已知模式。

图像分类器通常输出边界框和标签，但当遇到训练分布之外的物体时，边界框可能缺失或错误合并多个对象。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

一个残酷的真相就是，性能再厉害的模型，也不懂什么叫「5根手指」。

因为，AI看到的是纹理、形状、概率，而不是结构，不是数量，不是实体。

Transformer，并行计算的代价

而手指难题，也凸显出了Transformer架构的一大弱点。

Transformer架构的并行计算能力，是当今AI飞速发展的关键，但这种设计也存在代价。

单次前向传递无法有效追踪状态信息，系统难以执行需要多步骤逻辑推理的任务。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

面对六指手，AI就会缺乏「注意到异常-重新评估-调整方案」的连贯思维链条。它只是机械地应用从训练数据中学到的最强模式。

手的特殊性，在于数量固定、结构复杂、局部高度相关，而对于AI来说，多局部一致性、跨区域约束、数量不可变，恰巧是Transformer最不擅长的，堪称地域难度。

扩散模型的本质

从另一个角度分析，也可以这么理解。

扩散模型的本质是学习一个从噪声到清晰图像的概率分布逆推过程。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

它擅长捕捉数据的整体分布和纹理风格（例如，生成一只「看起来像手的轮廓」）。

但在精确控制局部、离散、高对称性的结构（例如，五根长度、位置、关节关系都正确的手指）时，就显得力不从心了。

从数据上看，训练数据中「五指」的绝对主导地位，使模型将「五指」视为不可违反的强统计先验。

就像一个看了100万只五指手的画家，你让他画六指手时，他总会无意识地将第六指融入到其他五指的阴影或姿势中，因为他的大脑早已深深刻入「手即五指」的概念。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

从算法层面上看，扩散模型在去噪的每一步，都是基于整个图像的潜在表示进行全局预测。它没有为「手指」这类特定结构设立显式的、受保护的局部计算单元。

因此，细微的噪声扰动或步骤误差，很容易在密集区域被放大，导致细节扭曲。

从架构层面看，现有模型是「端到端」的，直接从文本提示映射到像素。中间缺乏一个明确的、符号化的结构表示层。

因此，「长什么样」和「结构是什么」两者冲突时，它就大脑宕机了。

而如果想解决这些瓶颈，或许业界就需要采用混合建模的模式——将扩散模型（擅长纹理）与显式结构模型（如3D网格）结合。

或者引入局部注意力与约束——在模型架构中强化对特定区域（如手部）的局部注意力机制，或在训练/推理过程中引入几何约束损失函数。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

当代AI的阿喀琉斯之踵

让人感慨的是，Transformer最强的地方（Token-to-token预测），反而成了它的致命短板。

没有对象概念，没有显式结构约束，整个世界都被打平为token序列。

诚如一位网友所言：「视觉数据的复杂性远超文本，我们可能需要数十个数量级更多的计算资源，才能真正理解和处理视觉世界的全部细微差别。」

这不由让人想起，不久前谷歌DeepMind首席科学家对当前AI的评价。

虽然在语言、知识、编码等领域，它们已远超常人，但在视觉推理、长期学习、因果关系理解上，它们仍然不足。

全网破防，AI「手指难题」翻车逼疯人类！6根手指，暴露Transformer致命缺陷

「手指难题」犹如一面镜子，照出了当前以扩散模型为代表的AI模型的阿喀琉斯之踵——

它们在学习和复现数据的连续分布上取得了革命性成功，但在理解和生成精确的离散结构和拓扑关系上，仍然依赖于数据中的强统计先验，缺乏真正的物理和几何推理能力。

而如果想要彻底解决「手指难题」，就需要更先进的架构、更多样化的训练数据，以及人类对AI能力更清醒的认识。

在这个AI无所不能的时代，「手指难题」提醒我们——

即使是如今最先进的AI，也仍在学习如何看待世界的基本细节。

参考资料：

https://www.reddit.com/r/singularity/comments/1plw8hc/i_feel_like_the_model_is_mocking_me/

文章来自于“新智元”，作者 “Aeneas”。

关键词: AI新闻 , Transformer , AI手指难题 , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0