一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法
申请号:CN202510077454
申请日期:2025-01-17
公开号:CN120010852A
公开日期:2025-05-16
类型:发明专利
摘要
本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
技术关键词
抽象语法树
数据
智能软件工程
卷积神经网络训练
大语言模型
同义词
自然语言
检查工具
种子
模板
英语
字母
字符
文本
规模
格式
逻辑
定义
工业
接口