目标大语言模型的确定方法、装置、设备、存储介质及程序产品
申请号:CN202510527969
申请日期:2025-04-25
公开号:CN120449982A
公开日期:2025-08-08
类型:发明专利
摘要
本申请实施例提供目标大语言模型的确定方法、装置、设备、存储介质及程序产品。涉及人工智能领域。该方法包括:基于目标知识推理功能对应的数据集识别第一大语言模型中的目标网络模块;在知识裁剪场景中,基于该数据集对第一大语言模型中的目标网络模块进行裁剪,可以减少参数量和计算量,降低内存占用,从而基于第一训练集对裁剪后的第一大语言模型进行训练,可以提高第一大语言模型的训练效率;在知识迁移场景中,将目标网络模块迁移至第二大语言模型中,可以实现目标网络模块的复用,从而基于第二训练集,对迁移后的第二大语言模型进行训练,可以避免参数的重复训练,减少训练过程中的内存消耗,进而可以提高第二大语言模型的训练效率。
技术关键词
大语言模型
网络模块
问答对数据
场景
计算机可执行指令
训练集
参数
索引
处理器
元素
裁剪模块
计算机程序产品
电子设备
数据格式
矩阵
存储装置
内存