摘要
本发明属于生物特征识别技术领域,涉及一种基于Transformer的基因数据挖掘方法,该方法从文件中加载基因表达数据,进行预处理;之后将数据输入设计的模型中进行训练并评估;所设计的模型包括CNN卷积神经网络和改进的Transformer模型;改进的Transformer模型包括编码器、分类器;编码器采用多头自注意力机制、卷积自注意力机制和前馈神经网络;之后利用训练好的模型对数据处理,在对数据处理过程中,将编码层获取的融合注意力权重存储;最后对所有批次的融合注意力权重进行平均,计算每个基因在不同时间点上的综合注意力权重,通过计算并分析每个基因的注意力得分,识别出最为重要的基因。该方式可以解决基因数据稀缺和不平衡问题,减少过拟合的风险,提升基因数据分析的精度。