一种基于隐层激活的偏见幻觉检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于隐层激活的偏见幻觉检测方法
申请号:CN202411724634
申请日期:2024-11-28
公开号:CN119829962B
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于隐层激活的偏见幻觉检测方法。该方法包括:根据语言模型回答的行为特征评估信念状态,获得信念状态评估结果,所述信念状态反映该语言模型对回答的不确定程度;基于所述信念状态评估结果构建训练集,并训练信念状态分类器,所述训练集反映所述语言模型的信念状态与隐层激活之间的对应关系;实时获取目标语言模型生成过程中的隐层激活,并根据该隐层激活,利用经训练的信念状态分类器判断信念状态;对于检测出的幻觉,结合所述目标语言模型的输出正确性与所述信念状态分类器判断出的信念状态,判断幻觉类别。本发明基于模型隐层激活进行信念状态判定,提高了偏见幻觉检测的准确率。
技术关键词
分类器 答案 构建训练集 sigmoid函数 前馈神经网络 处理器 计算机设备 可读存储介质 格式 存储器 标签 关系 度量 样本 频率