摘要
本发明公开了蛋白质可溶性表达水平的预测方法、系统、设备和介质,涉及生物信息学和人工智能技术领域,包括多源生物数据集的整合优化,构建高质量训练验证数据集;基于蛋白质大语言模型,采用并行提取序列特征添加线性位置编码;采用基于自注意力机制和交叉注意力机制深度学习模型,优化二分类范式预测框架,构建双任务预测模型,完成分类和回归双任务预测;本发明所述方法通过融合多源蛋白质大语言模型与创新的深度学习架构,构建了高效、精准且通用的可溶性预测工具ProtSATT;ProtSATT创新性地突破传统二分类预测框架,实现了连续溶解度倾向分数预测,并结合自注意力与交叉注意力机制,有效提升了预测精度和稳定性。