一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法
申请号:CN202510077454
申请日期:2025-01-17
公开号:CN120010852A
公开日期:2025-05-16
类型:发明专利
摘要
本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
技术关键词
抽象语法树 数据 智能软件工程 卷积神经网络训练 大语言模型 同义词 自然语言 检查工具 种子 模板 英语 字母 字符 文本 规模 格式 逻辑 定义 工业 接口