摘要
本发明公开了一种基于推理的多语言安全防护框架、介质及设备,属于人工智能技术领域。该框架通过思维链推理与约束对齐优化相结合的方式,实现跨语言知识迁移与可解释性增强;包括:基于SFT的冷启动模块,被配置为能够通过有监督微调对基础大语言模型进行知识蒸馏,以赋予模型针对安全防护任务的初步推理能力;基于GRPO的推理训练模块,被配置为能够提升模型推理链的规范性、准确性与多样性,增强可解释性;基于CAO的跨语言对齐模块,被配置为能够实现高资源语言到低资源语言的知识迁移,避免高资源语言性能下降。本发明可以解决现有方法主要依赖缺乏可解释性的分类器,低资源语言安全护栏性能不足,且在低资源语言上表现欠佳的问题。