一种面向垂域大模型预训练的数据配比方法、装置及设备

申请号：CN202411054262

申请日期：2024-08-02

公开号：CN118569338B

公开日期：2024-11-29

类型：发明专利

摘要

本申请公开了一种面向垂域大模型预训练的数据配比方法、装置及设备，涉及数据处理技术领域。该方法应用于计算机集群，包括以下步骤：确定目标领域，将领域子集和通用子集输入训练模型，计算注意力特征，得到领域子集和通用子集的注意力分布；利用训练模型对领域子集和通用子集进行知识探测，得到领域子集和通用子集的知识权重；基于领域子集和通用子集的注意力分布和知识权重，确定训练数据集的混合权重；根据训练数据集的混合权重动态调整训练数据集的混合比例，对训练模型进行进一步训练，直至训练模型达到预设标准。本方案综合了数据垂直领域和通用领域的特性，不断优化模型性能，实现了精准和有效的数据配比，提高了模型训练的效果和性能。

技术关键词

注意力配比方法模型预训练维基百科矩阵集群计算机设备可读存储介质配比装置数据处理技术处理器参数动态关系分析模块批量存储器序列