摘要
一种基于因果图与思维链增强的大模型微调方法及相关装置,涉及电力行业大模型微调技术领域,方法包括对电力设备数据进行因果挖掘,构建包含因果权重信息的电力设备因果图;将大模型的输入拆解为思维链,并根据思维链对应生成链式因果对,通过链式因果对与构建的电力设备因果图进行路径检索匹配与因果一致性检查,实现推理过程的对齐;通过推理过程的对齐结果激励强化学习过程,优化预先建立的强化学习奖励模型,约束思维链生成过程,引导大模型在因果约束条件下生成思维链,实现大模型微调。本发明将因果推理与因果性嵌入大模型微调的强化学习反馈过程,使得大模型能够学到基本的因果推理规则,能够提升思维链推理的逻辑性、解释性和鲁棒性。