摘要
本发明公开了一种针对C语言编译器优化缺陷的根因分类方法,包括:步骤1、通过文献分析和数据观察的人工分析方法反复迭代构建初步的分类体系;步骤2、在构建数据集的同时通过数据验证的方法完善最终的分类体系;步骤3、使用生成式的数据增强方法扩充数据集,辅助提高分类器性能;步骤4、对数据进行适当的预处理,使用堆叠集成学习方法集成RTA和Llama3.1两种大语言模型实现自动化分类。本发明建立起一个系统化且有效的分类体系,并构建一个自动化的分类方法,有效地识别和预测C语言编译器中的优化缺陷根因,缩减缺陷修复的可疑范围,显著提高开发人员的修复效率,并促进了领域研究的深入发展。