基于Transformer语言模型的源代码漏洞检测方法及系统
申请号:CN202410916122
申请日期:2024-07-09
公开号:CN118886016A
公开日期:2024-11-01
类型:发明专利
摘要
本发明涉及互联网安全技术领域,特别涉及一种基于Transformer语言模型的源代码漏洞检测方法及系统,获取代码样本数据,并对代码样本数据中的漏洞类型标注类别标签,以构建漏洞检测样本数据集;构建多分类CodeBERT模型,并利用漏洞检测样本数据集对多分类CodeBERT模型进行训练,将训练后的多分类CodeBERT模型作为漏洞检测目标模型,其中,所述多分类CodeBERT模型基于RoBERTa分词器和Transformer语言模型构建;将待检测的源代码输入至漏洞检测目标模型中,利用漏洞检测目标模型识别并输出待检测源代码中的漏洞类别。本发明能够充分考虑源代码的深层语义、结构、语法特征,利用微调后的模型较好的标源代码漏洞挖掘检测,在软件安全领域具有较好的应用前景。
技术关键词
样本
数据
模型训练模块
互联网安全技术
标签
漏洞检测系统
生成自然语言
标记
序列
语法特征
可读存储介质
生成代码
语义
注意力机制
输出特征
策略
处理器