基于贝叶斯网络实现通用预训练模型后门攻击检测的方法

申请号：CN202510604977

申请日期：2025-05-12

公开号：CN120524480A

公开日期：2025-08-22

类型：发明专利

摘要

本发明涉及一种基于贝叶斯网络实现通用预训练模型后门攻击检测控制的方法，主要涉及人工智能安全领域。该方法通过对预训练模型(如ResNet‑50)中各层激活特征、降维数据及输出结果建立概率模型，并利用贝叶斯网络对输入样本进行推理，实现对后门攻击的实时检测。其核心在于利用输入、多个中间特征节点及输出节点之间的条件依赖关系构建贝叶斯网络，并结合在线参数更新策略，通过比较后门攻击概率与预设阈值来判断异常样本。本发明具有检测准确性高、适用性强、动态更新能力优越等优点，在人工智能安全检测领域具有重要应用价值，能够有效防范后门攻击风险，保障各类预训练模型在实际应用中的安全性和稳定性，可广泛应用于图像、视频及其他预训练模型安全防护。

技术关键词

预训练模型后门主成分分析方法样本节点贝叶斯网络推理条件依赖关系贝叶斯网络模型动态更新浅层特征提取参数估计方法拉普拉斯策略在线训练集中间层语义