怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分
6708点击    2026-05-11 09:01

当大模型看起来很自信时,它真的“相信”自己说的话吗?


最近,大模型Agent越来越多地被放进复杂的harness系统里。它不再只是回答一个孤立问题,而是会阅读长上下文、调用工具、接收检索结果、和其他agent讨论,也会在多轮交互中不断更新自己的判断。这带来了一个很现实的问题:


如果一个模型原本知道正确答案,当持续学习过程中的上下文里出现错误信息时,它还能坚持正确判断吗?


针对这一问题,来自浙江大学、爱丁堡大学的研究团队展开了研究。


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


研究发现,模型对995个问题都能以完美Self-Consistency(自一致性)给出正确答案。


也就是说,在无干扰条件下,它看起来非常确定。但当上下文中加入轻微干扰后,准确率却从100.0%下降到33.8%。


换句话说,一个模型可能反复答对某个事实,却并没有形成足够稳健的判断。一旦看到错误同伴意见、误导性检索文档,或者带有权威包装的错误信息,它仍然可能放弃原本正确的答案。


这就是这篇论文关注的问题:大模型看起来很自信时,它真的可靠吗?


为什么这个问题在Agent时代变得重要?


过去,常常用最终答案来评价模型。比如,一个问题问了10次,模型10次都回答正确,就会认为它在这个问题上具有很高的Self-Consistency,也就是自一致性。


这种指标当然有价值,但它隐含了一个很强的假设:只要模型反复答对,就说明它对这个事实形成了可靠判断。


在单轮问答里,这个假设似乎还说得过去。但在真实应用中,模型面对的往往不是一个干净、孤立的问题,而是一个充满噪声和干扰的上下文环境。


例如:在RAG系统里,模型会看到检索文档。如果检索结果中混入错误信息,模型是否会被带偏?


在多智能体系统里,一个agent可能会看到其他agent的回答。如果多数agent都给出错误答案,它是否还会坚持原本正确的判断?


在多轮对话里,用户可能不断提供带有倾向性的补充信息。模型会合理更新,还是过度迎合?


在真实交互中,模型会同时受到多轮上下文、用户立场、检索内容、其他agent、来源标签和社会性暗示的影响。它的判断状态可能会漂移、固化、被误导,或者被过度更新。


可以把这个更广义的问题称为上下文中的信念管理


它关注的是:模型如何在给定上下文下为某个命题分配权重;当新信息进入时,模型如何决定是否更新;面对无关干扰、错误来源或社会性压力时,又能否保持稳定。


从这个角度看,LLM的可靠性不应只问模型有没有答对,还应进一步看它是否形成了比较鲁棒的信念。


高Self-Consistency不等于稳健信念


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


一个例子很好地说明了这个问题。


问题:“2012年IMU巴西副主席是谁?”


在原始设置下,模型能够稳定回答正确答案:Marcelo Viana。多次采样中,它都给出相同且正确的答案,Self-Consistency为1.0。


如果只看传统指标,会认为模型已经很好地掌握了这个事实。


但当上下文中出现多个其他AI智能体,并且它们都回答Jacob Palis时,模型可能会转而输出这个错误答案。


也就是说,模型原本能答对,但当它看到“其他agent都这么说”时,判断发生了偏移。


这说明,模型“反复答对”并不一定代表它在相关知识结构中形成了稳健表征。它可能只是对某个孤立问答模式非常熟悉,但缺少足够的知识支撑来抵抗外部干扰。


这也是研究的核心出发点:


真实性评估不能只看模型在目标问题上是否答对,还要看它在相关知识邻域中是否保持一致。


Neighbor-Consistency Belief


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


为了解决这个问题,研究考虑了一个很简单的想法:


对于一个目标事实,研究不再只测试模型能否回答目标问题,还会构造与该事实相关的一组“邻域事实”,并观察模型在这些邻域问题上的表现。


研究基于贝叶斯推理策略的启发提出了核心指标Neighbor-Consistency Belief(NCB)。


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


研究主要构造了三类邻域事实:


第一类是Entity Prerequisite。这类事实是理解目标事实所需的实体前置知识。例如,如果模型要回答某个人在某个组织中的职位,它可能需要知道该人物、组织、时间范围等相关实体信息。


第二类是Logical Implication。这类事实与目标事实存在逻辑蕴含或强相关关系。如果模型真的掌握了目标事实,它在这些逻辑相关问题上也应该表现出一致性。


第三类是Thematic Association。这类事实与目标事实处在相近主题空间中。例如,同一领域、同一事件、同一组织或同一知识片段周围的关联事实。


NCB会把目标问题的正确频率与邻域问题的正确频率结合起来,通过概念邻域中的一致性估计模型知识状态的稳健程度。


简单来说:NCB越高,说明模型在该事实周围的知识结构越一致,也越可能在干扰场景下保持稳定。


认知压力测试:模型会被上下文带偏吗?


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


为了验证NCB是否真的能预测干扰下的稳定性,论文设计了一套认知压力测试框架。


这些测试并不是简单地检查模型是否知道答案,而是模拟真实应用中常见的上下文干扰:错误同伴意见、误导性讨论、不同可信度来源等。论文的压力测试受到经典Asch Conformity Experiments和Source Credibility Theory的启发,主要包含两大类设置:Peer Quantity和Source Credibility。


Peer Quantity:同伴数量压力


第一类压力测试是Peer Quantity,用于模拟多智能体系统中的同伴压力。


在这个设置中,模型回答问题前,会看到多个“其他AI智能体”的回答。如果多数智能体给出错误答案,目标模型是否会被影响?这一设置进一步分为两种场景:


Conflict场景中,其他agent直接给出错误答案,与正确事实发生冲突。


Misleading场景中,其他agent并不一定直接说出错误答案,而是围绕错误实体给出一些表面合理的信息,从语义上诱导模型偏向错误答案。


Source Credibility:来源可信度压力


第二类压力测试是Source Credibility,用于模拟不同来源可信度对模型判断的影响。


在真实RAG或搜索增强系统中,模型经常会看到来自不同来源的信息:社交媒体、博客、新闻、论文、报告等。这些来源的可信度不同,但来源标签本身也可能对模型形成干扰。


论文测试的问题是:如果一个错误信息来自看起来更权威的来源,模型是否会更容易放弃原本正确的答案?


这类测试对应了真实系统中的一个常见风险:模型不仅会读取内容,也会受到内容包装方式的影响。来源标签、权威措辞、格式化引用,都可能改变模型对信息的权重分配。


理想情况下,模型应当根据evidence更新判断,而不是因为source framing或social framing被不合理带偏。


NCB是一个合理的信念评估指标


论文从多个事实数据集(SimpleQA,SciQ,Hotpot_QA)进行采样加人工标注构建了一个Neighbor-Enriched Dataset,覆盖四个领域(STEM,艺术与文化,社会科学,体育)共包含2000个样本。


每个目标事实平均包含约7.84个验证后的邻域事实,以及4.88个误导性邻域事实。


实验评估了四个代表性模型:Qwen-2.5-32B-Instruct;Qwen3-A3B-30B-Instruct-2507;Qwen3-A3B-30B-Thinking-2507;OLMo-2-32B-Instruct。此外还评估了Qwen-2.5系列大小模型。


主实验直接聚焦于模型原本已经“高自一致”的样本,也就是那些在传统Self-Consistency视角下看起来已经被模型掌握的样本。论文根据NCB分数将样本划分为高NCB组和低NCB组,比较它们在压力测试下的表现差异。


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


主实验结果显示:在多个模型和多种干扰设置下,高NCB组通常比低NCB组表现出更小的准确率下降


以top/bottom35%的高低NCB组为例,在Quantity-Stressing设置下:


  • Qwen-2.5:高NCB组下降16.0%,低NCB组下降25.7%;
  • Qwen3:高NCB组下降17.6%,低NCB组下降28.8%;
  • Qwen3-Thinking:高NCB组下降11.3%,低NCB组下降22.6%。
  • OLMo2:高NCB组下降18.7%,低NCB组下降28.3%;


更细粒度的趋势也很明显:随着错误同伴数量增加,低NCB组的准确率下降更快。


高NCB组虽然也会受到影响,但整体下降幅度明显较小。在Peer Quantity–Conflict设置下,当干扰强度逐渐增加时,


LowNCB准确率从97%降至62%,而HighNCB从98%降至81%。


推理和反思并不总能解决问题


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


研究进一步论文比较了直接回答、Chain-of-Thought和Reflection等推理时策略。


结果显示,CoT的效果并不稳定。在部分设置下,CoT反而可能放大干扰带来的性能下降。


例如,在Qwen-2.5的LowNCB-35%组中,Quantity-Stressing下的准确率下降从直接回答的25.7%增加到CoT的31.6%。


这说明:推理过程本身也会受到上下文影响。如果上下文中存在错误同伴意见或误导性信息,模型的推理链可能围绕这些干扰展开,从而把错误进一步合理化。


Reflection在多数设置中能缓解干扰,但它也不是对“脆弱知识”的根本修复。整体来看,推理时策略可以改变模型处理上下文的方式,但如果底层知识本身缺少结构化一致性,模型仍可能受到误导信息影响。


除了诊断,论文还初步探索了使知识结构化的训练策略Structure-Aware Training(SAT)


SAT的思路是:在学习新知识时,不只让模型记住孤立答案,而是通过邻域上下文和通用上下文,让模型在不同上下文中保持对核心事实的稳定输出。


具体来说,SAT会构造包含语义相关邻域信息和通用背景信息的两类上下文。


随后,使用冻结的教师模型提供参考分布,让学生模型在不同上下文下匹配教师模型在原始问题上的输出分布。这样,模型被训练为:即使上下文发生变化,也应尽量保持对核心事实的稳定输出。


实验显示,SAT能在一定程度上降低新知识学习后的干扰敏感性。论文摘要中也指出,SAT可以减少长尾知识脆弱性,降低压力测试下的性能退化。


怎么判断大模型是真懂还是假懂?浙大x爱丁堡大学新指标NCB:给它的知识邻域也打分


总结和展望


总体来看,研究关注的是一个正在变得越来越重要的问题:大模型在复杂上下文中持续学习新知识,是否真的能够形成并维持稳定、可靠的判断?


这一问题之所以重要,是因为对AI的期待其实来自两个方面。


第一,希望AI能够帮助完成长程、复杂、跨步骤的任务,从而提升生产力。


第二,也希望AI能够帮助人类学习、反思和成长,成为一种认知辅助工具。


前者要求模型在长期任务中稳定执行、合理更新、不被噪声轻易带偏;后者则要求模型在与人互动时能够提供可靠信息,而不是放大错误信念、迎合用户偏见,甚至在不知不觉中操纵人的判断。


从第一个角度看,LLM在长程交互中并不总能稳定维持判断。例如,ICLR 2026 Outstanding Paper LLMs Get Lost In Multi-Turn Conversation发现,在多轮对话中,尤其是面对欠明确指令时,模型性能和可靠性会明显下降。


这说明,当任务从单轮问答扩展到长期交互时,模型的错误不再只是一次性的输出偏差,而可能在上下文累积中逐渐放大。


对未来智能体而言,这一点尤其关键:如果一个模型需要长期积累知识、记忆和经验,那么它不仅要能回答当前问题,还要能区分哪些信息应该被暂时利用,哪些信息应该写入长期记忆,哪些判断又应该在新证据出现时被修正。


从第二个角度看,还需要关注LLM的信念会如何影响人的信念。


A Rational Analysis of the Effects of Sycophantic AI则从讨好型AI的角度指出,如果模型持续强化用户已有观点,可能会提高用户的主观确定感,却不一定让用户更接近真实答案;


The Hidden Puppet Master:A Theoretical and Real-World Account of Emotional Manipulationin LLMs从隐藏激励和情感操纵的角度说明,模型对话可能引发human belief shift,并且这种影响并不总是容易被现有模型准确预测。


换句话说,LLM的信念风险不仅在于它自己会不会被误导,也在于它是否会进一步误导人类。


从这个意义上说,邻域一致性只是一个起点。它提醒,大模型的真实性和可靠性不能只通过单点答案来衡量,而应放在更广阔的交互环境中理解。


未来可能需要把事实一致性、长期记忆、行为控制、人类信念影响和模型可解释性结合起来,进一步构建能够在复杂世界中稳定判断、合理更新、并负责任地影响人类的AI系统。


参考论文

[1]LLMs Get Lost In Multi-TurnConversation.

[2]The Hidden Puppet Master: ATheoretical and Real-World Account of Emotional Manipulationin LLMs.

[3]A Rational Analysis of the Effects of Sycophantic AI.

[4]Illusions of Confidence?Diagnosing LLM Truthfulness via Neighborhood Consistency.

[5]论文链接:https://arxiv.org/abs/2601.05905

[6]代码链接:https://github.com/zjunlp/belief


文章来自于"量子位",作者 "浙大团队"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI