一种针对推荐系统的模型窃取攻击方法及其系统

申请号：CN202510451777

申请日期：2025-04-11

公开号：CN120316348A

公开日期：2025-07-15

类型：发明专利

摘要

本申请公开了一种针对推荐系统的模型窃取攻击方法及其系统，方法包括：通过大语言模型LLM排序器模拟真实用户行为，生成符合用户行为模式的合成数据；其中，LLM排序器包括：记忆压缩MC模块及偏好稳定PS模块，记忆压缩MC模块选择性保留所述LLM中存储的有效历史交互；偏好稳定PS模块从所述LLM中存储的历史交互中提取用户偏好的概要；基于合成数据，训练替代模型，采用知识蒸馏方法实现模型窃取。本发明方法能够生成更具代表性且覆盖面更广的合成数据，使得攻击者能够更高效地窃取目标模型，同时生成的数据也更能反映真实用户的偏好和行为模式，从而提升攻击的效果和精度。

技术关键词

推荐系统知识蒸馏方法大语言模型模块记忆历史交互信息列表内存数据模式采样器交互历史处理器生成用户摘要序列可读存储介质覆盖率存储器策略