基于优化与生成的大语言模型中间状态隐私度量方法及系统

申请号：CN202510952011

申请日期：2025-07-10

公开号：CN120995492A

公开日期：2025-11-21

类型：发明专利

摘要

本发明针对大型语言模型(Large Language Model,LLM)内部状态(Internal States,ISs)的隐私风险度量问题，提出了一系列基于优化和生成的分析方法，用于评估中间状态中重构原始输入文本的潜在隐私泄露风险。本发明包括两种基于优化的白盒分析方法，包括针对浅层中间状态的表征恢复方法与针对深层中间状态的词牌基向量恢复方法。本发明还包含两种黑盒分析方法，包括基于模型相似性的优化分析和基于生成的翻译分析，解决了传统评估方法在高深度层和大词典规模下的局限性。本发明显著提升了隐私风险度量的准确性，特别适用于长文本场景(如医疗咨询和编程辅助)的风险评估。本发明为大语言模型中间状态的隐私风险评估提供了系统化解决方案，并为防护设计提供了重要依据。

技术关键词

词牌黑盒模型度量大语言模型反演模型恢复方法文本隐私风险评估分析方法投影模块引入注意力机制知识蒸馏技术矩阵自动编码器机器翻译数据处理模块数据采集模块重构误差