摘要
本发明属于人工智能算法应用‑生物序列识别领域,涉及基于大模型技术识别磷酸化修饰位点的方法。本发明将最新的蛋白质大模型技术ESM‑2应用到了磷酸化修饰位点识别方向,充分利用了当下最前沿的技术实现SARS‑CoV‑2感染的磷酸化修饰位点的识别,显著提升了识别的准确率以及可靠性。本发明创新性地提取蛋白质预训练大模型的中间输出用作后续的研究。面对不同任务可能需要不同的层次输出特征,本研究提供了一个清晰的范例,展示了模型中间层输出的有效性。本发明创新性地使用了迁移学习相关技术有效解决了SARS‑CoV‑2感染的磷酸化修饰位点中酪氨酸(Y)数据稀少从而无法有效进行分类预测的问题。