基于AI大模型知识蒸馏的方法、装置和电子设备

申请号：CN202511157612

申请日期：2025-08-19

公开号：CN120654774A

公开日期：2025-09-16

类型：发明专利

摘要

本发明提供了一种基于AI大模型知识蒸馏的方法、装置和电子设备，属于人工智能技术领域，该方法中温度采用动态调整机制，随着训练周期的增加，训练周期对应的预设初始温度逐步减小；此外，在每个训练周期内，还基于蒸馏损失对该预设初始温度进行细微调节，从而获得每个训练样本所对应的目标温度，即最适合当前蒸馏效果的温度。基于目标温度重新计算得到的目标蒸馏损失和学生损失更加科学，进而用于更新学生模型权重参数的总损失也更加准确和鲁棒，促使学生模型更有效地学习教师模型的知识，学习科学高效的学习过程。最终所得学生模型具有良好的泛化能力，并显著增强模型的鲁棒性，从而显著提升知识蒸馏整体效果。

技术关键词

学生教师词语蒸馏标签周期动态调整机制电子设备微调单元人工智能技术因子处理器存储器鲁棒性参数