大语言模型知识蒸馏方法、装置、设备及介质

申请号：CN202511190355

申请日期：2025-08-22

公开号：CN120930805A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及人工智能领域，技术方案可应用在金融科技/医疗健康领域，公开了一种大语言模型知识蒸馏方法、装置、设备及介质，方法包括：获取业务数据，所述业务数据包括输入文本序列、期望输出文本序列以及对应的注意力掩码序列；将所述输入文本序列和所述注意力掩码序列输入至学生模型和教师模型，分别获得学生模型输出的第一预测概率分布和教师模型输出的第二预测概率分布；基于所述第一预测概率分布和所述第二预测概率分布，计算反向KL散度损失值；利用所述反向KL散度损失值优化所述学生模型的参数。本发明通过反向KL散度损失函数引导学生模型精准拟合教师模型的核心概率分布，使轻量化模型的生成准确率得到明显提升。

技术关键词

知识蒸馏方法学生大语言模型序列文本注意力教师神经网络模型深度学习框架梯度下降算法参数可读存储介质医疗健康数据获取模块处理器蒸馏装置计算机设备标识规模