基于Transformer语言模型的源代码漏洞检测方法及系统

申请号：CN202410916122

申请日期：2024-07-09

公开号：CN118886016A

公开日期：2024-11-01

类型：发明专利

摘要

本发明涉及互联网安全技术领域，特别涉及一种基于Transformer语言模型的源代码漏洞检测方法及系统，获取代码样本数据，并对代码样本数据中的漏洞类型标注类别标签，以构建漏洞检测样本数据集；构建多分类CodeBERT模型，并利用漏洞检测样本数据集对多分类CodeBERT模型进行训练，将训练后的多分类CodeBERT模型作为漏洞检测目标模型，其中，所述多分类CodeBERT模型基于RoBERTa分词器和Transformer语言模型构建；将待检测的源代码输入至漏洞检测目标模型中，利用漏洞检测目标模型识别并输出待检测源代码中的漏洞类别。本发明能够充分考虑源代码的深层语义、结构、语法特征，利用微调后的模型较好的标源代码漏洞挖掘检测，在软件安全领域具有较好的应用前景。

技术关键词

样本数据模型训练模块互联网安全技术标签漏洞检测系统生成自然语言标记序列语法特征可读存储介质生成代码语义注意力机制输出特征策略处理器