摘要
本发明公开了一种控制大型语言模型生成内容的方法及系统,属于人工智能技术领域。通过离线分析,向目标大型语言模型分别输入对照指令集和目标指令集,通过对比分析识别并输出代表模型泛化拒绝倾向的全局拒绝方向向量;接收全局拒绝方向向量作为输入,并通过优化目标引导与直接投影纯化相结合的方式,对一个原始大型语言模型的权重进行修改,并输出一个最终的、具备特定增强功能的编辑后的大型语言模型。部署编辑后的目标大型语言模型,当输入包含预设触发器时,激活更新后的模型权重以稳定生成目标内容。本发明在模型编辑阶段前瞻性地、主动地将规避泛化拒绝行为的引导策略固化到模型权重中,从根源上解决了因过度修正导致模型能力下降的问题。