一种基于集成学习与程序切片的代码相似性动态检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于集成学习与程序切片的代码相似性动态检测方法
申请号:CN202511034713
申请日期:2025-07-25
公开号:CN120872352A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及代码相似性检测技术领域,公开了一种基于集成学习与程序切片的代码相似性动态检测方法,包括:生成各源代码的抽象语法树、原始代码属性图;获取各节点的语法、数据与控制信息,构建各源代码的扩展代码属性图;对扩展代码属性图进行程序切片,生成程序切片子图,并将其节点名称通过基于语义的自动映射方法进行标准化;然后将标准的程序切片子图输入图神经网络中捕获图特征,同时将抽象语法树输入Transformer编码器中提取序列特征;最后,将生成的两种特征进行融合集成并进行相似性检测任务;该方法实现了跨语言场景下的高精度代码分类与高效语义分析。
技术关键词
程序切片 动态检测方法 输出特征 抽象语法树 序列特征 程序依赖图 融合特征 编码器 注意力 语义向量 基准 前馈神经网络 自动映射方法 K均值聚类方法 编码向量 节点特征 语义特征提取 生成词库