基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置
申请号:CN202510700915
申请日期:2025-05-28
公开号:CN120851123A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置,其中联邦学习通过在多个客户端之间进行协同学习,充分利用各客户端的本地数据和计算资源,实现大语言模型的高效训练,避免了传统集中式训练中的数据隐私问题。为解决模型异质性问题,引入了具有自适应KL散度的知识蒸馏技术,通过该技术,能够有效提升联邦学习在异质化环境中的可行性,确保客户端之间的知识共享与协调。不仅提升了客户端模型的性能,还减少了因数据分布不均或计算能力差异带来的负面影响,进一步增强了联邦学习的可行性。本发明有效提升了大语言模型在语言建模任务上的表现,能够为大规模分布式大语言模型的训练提供有效的解决方案。
技术关键词
大语言模型 客户端 学生 教师 知识蒸馏技术 数据分布 训练装置 元素 计算机 处理器 异质 指令 服务器 参数 存储器