摘要
本申请公开了一种针对推荐系统的模型窃取攻击方法及其系统,方法包括:通过大语言模型LLM排序器模拟真实用户行为,生成符合用户行为模式的合成数据;其中,LLM排序器包括:记忆压缩MC模块及偏好稳定PS模块,记忆压缩MC模块选择性保留所述LLM中存储的有效历史交互;偏好稳定PS模块从所述LLM中存储的历史交互中提取用户偏好的概要;基于合成数据,训练替代模型,采用知识蒸馏方法实现模型窃取。本发明方法能够生成更具代表性且覆盖面更广的合成数据,使得攻击者能够更高效地窃取目标模型,同时生成的数据也更能反映真实用户的偏好和行为模式,从而提升攻击的效果和精度。