摘要
本发明提供了一种基于知识蒸馏的跨语言代码注释生成方法,旨在解决现有技术中低资源编程语言注释生成效果较差的问题。本方法首先通过构建高资源编程语言(即具备大量训练数据的语言)的代码‑注释对数据集,对高质量的注释生成进行预训练与微调,形成教师模型。随后通过知识蒸馏技术,将教师模型的知识迁移至针对低资源编程语言(即训练数据稀缺的语言)的学生模型中,学生模型通过学习教师模型生成的软标签和硬标签逐步提高其注释生成能力。训练好的学生模型能够高效地为低资源编程语言生成高质量的代码注释,且具备跨语言适应能力。该方法有效提升了低资源语言代码注释的准确性和可读性,且大大降低了低资源数据的依赖性,具备广泛的应用前景。