摘要
本发明涉及自然语言处理技术领域,特别涉及一种基于多轮红队攻击的大模型安全对齐方法及装置。方法包括:基于思维引导的方式,结合攻击前思考数据集构建红队初始化数据集;基于红队初始化数据集对原始红队模型进行微调,获得红队初始模型;红队模型与目标模型进行多轮交互,并基于轨迹采样生成包含未来奖励的偏好数据对;基于偏好数据对优化目标模型和红队模型;基于优化后的目标模型和红队模型,获得安全对齐后的目标模。推动大型语言模型在实际应用中的进一步发展和普及。通过创新性的结构设计和技术手段,本发明能够更好地重塑大模型安全技术栈,为构建可信赖的人工智能系统提供关键支撑。