一种基于动态图神经网络的大模型知识蒸馏架构与高效训练方法及系统
申请号:CN202511026489
申请日期:2025-07-24
公开号:CN120874899A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及多模态学习技术领域,具体为一种基于动态图神经网络的大模型知识蒸馏架构与高效训练方法及系统,包括以下步骤:构建动态图神经网络,提取大语言模型知识,设计知识蒸馏架构,实现高效训练技术;有益效果为:通过动态图神经网络提取语义知识,并将其融入知识蒸馏过程,学生模型能够更深入地学习教师模型的知识,从而实现高效的知识迁移;将大语言模型的知识迁移到轻量级的学生模型中,显著降低了模型的参数规模和计算复杂度,使得模型更适合在资源受限的环境中部署。
技术关键词
高效训练方法
蒸馏
学生
大语言模型
神经网络架构
训练算法
教师
注意力机制
节点
多阶段
缩放技术
内容更新
多模态
语义特征
动态更新
浮点数
梯度下降算法