摘要
本发明公开了一种跨语言代码程序分类、分类模型训练方法及装置,该训练方法包括以下步骤:获取代码片段对集,所述代码片段对集包括第一代码片段对和第二代码片段对;将所述代码片段对集中的所有代码片段解析为抽象语法树结构并根据所述抽象语法树结构得到该代码片段的图结构特征向量;将所述代码片段对集中的所有代码片段转化为token特征向量;对代码片段的token特征向量及其对应的图结构特征向量进行融合,得到融合特征向量;将所述第一代码片段对和第二代码片段对对应的融合特征向量输入分类模型中进行训练。其可提高跨语言代码相似性分类的准确性。