摘要
本公开涉及一种大语言模型对齐方法及装置、电子设备和存储介质,该方法包括:将大语言模型的对齐流程划分为多个阶段;确定各所述阶段的子阶段,以及各所述阶段对应的阶段内策略,所述阶段内策略表征训练时模块对硬件的共享策略以及模块的执行顺序;确定阶段间策略,所述阶段间策略表征不同所述阶段对应的并行训练方式;按照各所述阶段内策略和各所述阶段间策略对待对齐模型进行对齐,得到目标模型。在对齐过程中,为各阶段确定出对应的阶段内策略、阶段间策略,考虑了上下文切换过程中可能的效率优化可能性,以及并行训练方式转换过程中可能存在的效率优化的机会,提高了对齐训练的效率和硬件资源的利用率。