一种面向垂域大模型预训练的数据配比方法、装置及设备
申请号:CN202411054262
申请日期:2024-08-02
公开号:CN118569338B
公开日期:2024-11-29
类型:发明专利
摘要
本申请公开了一种面向垂域大模型预训练的数据配比方法、装置及设备,涉及数据处理技术领域。该方法应用于计算机集群,包括以下步骤:确定目标领域,将领域子集和通用子集输入训练模型,计算注意力特征,得到领域子集和通用子集的注意力分布;利用训练模型对领域子集和通用子集进行知识探测,得到领域子集和通用子集的知识权重;基于领域子集和通用子集的注意力分布和知识权重,确定训练数据集的混合权重;根据训练数据集的混合权重动态调整训练数据集的混合比例,对训练模型进行进一步训练,直至训练模型达到预设标准。本方案综合了数据垂直领域和通用领域的特性,不断优化模型性能,实现了精准和有效的数据配比,提高了模型训练的效果和性能。
技术关键词
注意力
配比方法
模型预训练
维基百科
矩阵
集群
计算机设备
可读存储介质
配比装置
数据处理技术
处理器
参数
动态
关系
分析模块
批量
存储器
序列