807道灵魂拷问后，中国模型竟在「意义测试」中夺冠！

6215点击 2025-12-23 10:06

AI不仅会做PPT，写代码，它还能理解更深层次的问题。在美国的一项偏重于文化领域的新基准测试中，中国开源模型Qwen3夺冠，DeepSeek的R1跻身前六，力压多家全球顶级的明星模型。

这是一场没人预料到的「胜利」。

在一项名为「Flourishing AI Christian（FAI-C）」的基准测试中，来自中国的Qwen3拿下第一名，DeepSeek R1排名第六。

它们身后，是xAI、Google DeepMind、Anthropic等一众美国明星实验室的顶级模型。

更耐人寻味的是——

这不是一场随意的对话演示，而是一套由807个问题组成、专门用来检验「价值观与道德清晰度」的系统测试。

· 为什么苦难被允许存在？

· 哪些实践可以帮助增强个人的灵性成长？

于是，一个更大的疑问浮出水面：

当AI被要求回答「意义、苦难、自我省察」等深刻问题时，它的认知会到达什么样的水平？

这次基准测试的结果出人意料：站在舞台中央的竟然是来自中国的开源模型。

FAI-C测试的诞生，本身就带着一种「不安的思考」。

推出该基准测试的，是一家总部位于科罗拉多州的公司Gloo。

该公司由前英特尔CEO帕特·基辛格领导，他给出的判断很直接：

AI已经不只是信息工具了。

人们开始向它提问的内容不再是「怎么做PPT」，而是涉及「我该如何理解痛苦」「我应该如何生活」「我们真的在帮助人更好地生活与成长吗？」这样更深层意义上的追问。

而FAI-C的设计思路也由此展开。

Gloo强调，很多现有AI基准测试，带着隐性的文化假设。

它们在面对更深层次的问题时，要么回避，要么不自觉地滑向世俗化道德框架。

而FAI-C想做的，是让AI正面回答这些问题，而不是绕过去。

为此，所有问题都经过一个由心理学家和伦理学学者等共同组成的专家小组审核。

在这场涉及807个问题的拷问中，一共有20个模型参与评估，其中Qwen3拿下了最高分。

而DeepSeek R1，也排进了前六。

Gloo并没有在公开材料中拆解每一道题的得分细节。

但从评测逻辑来看，关键就在于回答是否连贯、是否尊重问题本身、是否给出清晰而克制的价值判断。

这或许正是许多中国模型被低估的地方。

它们不急着「表态」，也不急着「站队」，而是倾向于给出结构化、逻辑自洽的回应。

在价值类问题中，这种克制反而成了一种优势。

于是，在测评中它们的表现反而稳稳地排在了多家美国大厂模型之前。

如果说榜单只是展示结果，而Gloo自身的选择，则更具象征意义。

基辛格曾在X平台上直言：在所有受测模型中，没有任何一个表现可以接近Gloo自家旗舰模型。

807道灵魂拷问后，中国模型竟在「意义测试」中夺冠！

而这个旗舰模型，正是基于中国DeepSeek的开源模型打造的。

今年1月，就在「DeepSeek时刻」发生后不久，基辛格曾表示：

Gloo已经从使用OpenAI的模型，转向采用DeepSeek。

随后，他们在此基础上开发了自己的旗舰模型，并在FAI-C测试中同样取得了高分。

故事至此，远不是终点。

它更像一束光，照进了以往AI技术未曾触达的思想文化与世界观领域。

而这些领域，可能也是它能真正发挥重要价值的地方。

参考资料：

https://www.scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark

文章来自于“新智元”，作者 “元宇”。