摘要
本发明属于信息预测技术领域,提供了一种基于多特征融合的氮循环功能基因预测方法及系统,包括:获取含氮代谢基因的蛋白质序列数据;分析蛋白质序列数据,筛选出存在类不平衡的蛋白质序列数据并进行基于伪突变策略的蛋白质序列数据增强,数据增强后的少数类别蛋白质序列和不存在类不平衡的蛋白质序列构成平衡蛋白质序列数据集;基于双向长短期记忆网络处理不同长度的平衡蛋白质序列数据集,提取氨基酸残基的上下文特征,通过自注意力机制构建任意两个氨基酸残基之间的关系以提取蛋白质序列中氨基酸残基的全局特征,通过深度神经网络融合上下文特征和全局特征,基于融合特征计算基因家族的预测概率,预测氮循环功能基因。