摘要
本发明涉及一种基于蛋白质语言模型的肽毒性预测方法及系统。所述方法包括:根据肽序列构建数据集输入至蛋白质语言模型ESM2中,提取肽序列中的特征表示;使用双向长短期记忆网络捕捉肽序列中的依赖关系和上下文信息;根据特征表示、依赖关系和上下文信息进行模型训练,得到肽毒性预测模型;使用肽毒性预测模型进行肽毒性预测。采用蛋白质语言模型ESM2进行特征提取,对肽序列进行全面挖掘,使用双向长短期记忆网络捕捉依赖关系和上下文信息,最终训练得到肽毒性预测模型完成肽毒性分类预测,能够有效学习肽序列的生物学上下文语义,充分挖掘肽序列中的特征信息,提高模型的毒性预测准确率,可以快速、低成本进行肽毒性预测。