一种基于大语言模型的蜂窝用户App使用数据合成方法

申请号：CN202410945664

申请日期：2024-07-15

公开号：CN118890612B

公开日期：2025-12-05

类型：发明专利

摘要

本发明属于数据合成技术领域，尤其涉及一种基于大语言模型的蜂窝用户App使用数据合成方法，分为以下步骤：(1)文本编码方法，对真实的表格数据进行文本编码，将App表格数据转换为文本序列表示；(2)预训练微调，使用文本数据集对预训练生成式大语言模型进行微调；(3)App数据采样合成，使用微调好的预训练生成式大语言模型采样生成文本序列数据，并将文本序列数据转换为表格数据，得到合成的表格数据集；本发明具有以下有益效果：该方法允许用户通过多种输入提示设置对数据生成过程进行概率控制，用户可以根据自己的需求，灵活定义条件实现App使用数据的可控合成，合成数据的质量和在下游应用中的可用性更高。

技术关键词

大语言模型数据序列生成方式文本编码方法表格梯度下降算法编码特征样本定义参数矩阵解码格式特征值代表元素