基于源码预训练模型的鲁棒性验证方法、系统及存储介质
申请号:CN202511196522
申请日期:2025-08-26
公开号:CN120974346A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了基于源码预训练模型的鲁棒性验证方法、系统及存储介质,其方法包括步骤:获取模型并提取代码数据特征得到令牌序列;对令牌序列进行切片处理;采样令牌序列切片并进行重组得到随机令牌序列;设计分类损失函数并对大型预训练模型进行微调;将随机令牌序列作为大型预训练模型的输入得到模型预测的分类标签;根据多次模型预测得到的分类标签计算分类的自信度并得到大型预训练模型的输出预测;构建基于编辑距离的新令牌序列;根据预测标签自信值的界限和二分法计算鲁棒半径。本发明解决了现有方法在源代码场景中复杂扰动使得现有随机平滑方法难以统一建模导致大型预训练语言模型无法针对各类特征做精细处理从而难以保证鲁棒性的问题。
技术关键词
预训练模型
鲁棒性验证方法
令牌
标签
序列切片
预测类别
语法模型
序列特征
预训练语言模型
编辑
平滑方法
元素
验证系统
计算机
可读存储介质
程序
存储器