模型训练方法、恶意文件检测方法、设备、介质及程序产品
申请号:CN202510183190
申请日期:2025-02-19
公开号:CN120030540A
公开日期:2025-05-23
类型:发明专利
摘要
本申请实施例提供一种模型训练方法、恶意文件检测方法、设备、介质及程序产品,涉及文件检测技术领域。所述方法包括:收集样本PDF文件数据集;获取样本PDF文件的二进制编码数据,确定对应的转移概率矩阵并转换成灰度图像;基于灰度图像提取图像特征;对样本PDF文件的内容编码数据提取对应的预处理数据并转换成词向量数据,基于词向量数据提取文本特征;基于样本PDF文件的特征及其相应的样本标注信息对待训练的分类模型进行训练,得到训练好的恶意文件检测模型。本申请通过获取PDF文件不同编码形式的数据,并分别从中提取图像特征和文本特征,以基于提取得到的多模态特征数据进行模型训练,进而有效提高恶意PDF文件检测的精确性和可靠性。
技术关键词
二进制编码数据
转移概率矩阵
模型训练方法
多层卷积神经网络
恶意文件检测方法
样本
文本
图像
文件检测技术
计算机程序产品
词向量训练
处理器
可读存储介质
格式
转换方法
模态特征
非线性
存储器