一种基于代码语义和文本嵌入的混淆Android恶意应用的检测方法

申请号：CN202411456056

申请日期：2024-10-18

公开号：CN119475333A

公开日期：2025-02-18

类型：发明专利

摘要

本发明涉及一种基于代码语义和文本嵌入的混淆Android恶意应用的检测方法，包括以下步骤：收集恶意软件数据集；对数据集中恶意软件进行混淆；提取权限和控制流程图中API调用特征；将特征使用BERT预训练模型进行嵌入并结合聚类算法对特征进行过滤；对API调用特征进行编码；搭建深度学习框架，框架里面训练所采用的深度学习模型为模型BERT+Self‑Attention+TextCNN模型；重复多次迭代得到最终的预测效果。本发明使用了代码语义和文本嵌入并结合聚类算法，通过训练改进的预训练模型，能够显著提高混淆恶意软件分类的鲁棒性。

技术关键词

恶意软件数据 Android恶意软件三元组恶意软件检测文本深度学习模型 Attention机制权限特征聚类算法噪声特征样本注意力机制语义特征实体训练集深度学习框架全局平均池化预训练模型