一种基于知识蒸馏的跨语言代码注释生成方法

申请号：CN202411603557

申请日期：2024-11-11

公开号：CN119473384A

公开日期：2025-02-18

类型：发明专利

摘要

本发明提供了一种基于知识蒸馏的跨语言代码注释生成方法，旨在解决现有技术中低资源编程语言注释生成效果较差的问题。本方法首先通过构建高资源编程语言(即具备大量训练数据的语言)的代码‑注释对数据集，对高质量的注释生成进行预训练与微调，形成教师模型。随后通过知识蒸馏技术，将教师模型的知识迁移至针对低资源编程语言(即训练数据稀缺的语言)的学生模型中，学生模型通过学习教师模型生成的软标签和硬标签逐步提高其注释生成能力。训练好的学生模型能够高效地为低资源编程语言生成高质量的代码注释，且具备跨语言适应能力。该方法有效提升了低资源语言代码注释的准确性和可读性，且大大降低了低资源数据的依赖性，具备广泛的应用前景。

技术关键词

代码注释生成方法知识蒸馏技术低资源语言教师标签监督学习方法监控学生解析工具预训练模型生成代码噪声数据指标分词参数项目基础