代码处理方法、训练数据的处理方法及模型微调方法

申请号：CN202411075167

申请日期：2024-08-06

公开号：CN118860412A

公开日期：2024-10-29

类型：发明专利

摘要

本说明书提供代码处理方法、训练数据的处理方法及模型微调方法，代码处理方法包括：提取待处理代码的图数据，其中，所述图数据包括多个节点和不同节点之间的连接关系；根据所述待处理代码内与所述图数据中至少一个节点对应的代码片段，分别提取所述图数据中至少一个节点的特征；根据所述图数据中至少一节点的特征，以及至少两个节点之间的连接关系，确定所述图数据对应的词向量，其中，所述词向量为适应于大语言模型的特征空间的词向量。该方法能够将代码处理为适应于大语言模型的特征空间的等效词向量，从而使得代码能够接入大语言模型，并提高大语言模型对代码含义的获知能力。

技术关键词

神经网络模型节点微调方法样本大语言模型微调装置关系标记标签抽象语法树处理器指令计算机程序产品数据模块可读存储介质电子设备漏洞