一种基于参数共享和知识蒸馏的大模型小型化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于参数共享和知识蒸馏的大模型小型化方法
申请号:CN202510345060
申请日期:2025-03-24
公开号:CN120258087A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于参数共享和知识蒸馏的大模型小型化方法,首先进行数据准备:准备训练数据集和测试数据集;然后进行教师模型选择:选择一个预训练的大模型作为教师模型和学生模型的初始模型;接着进行学生模型构建:构建一个参数量更少的学生模型;最后知识蒸馏训练:使用教师模型对学生模型进行知识蒸馏训练,最小化损失函数。本发明能够有效地将大模型压缩为小型模型,同时保持较高的性能,具有广泛的应用前景。
技术关键词
小型化方法 教师 学生 协方差矩阵 蒸馏 重构误差 参数 模型压缩 学习特征 数据 定义 编码器 复杂度 关系 语义 规模 因子 线性