摘要
一种采用渐近式搜索MSA的蛋白质系综预测方法,首先,给定目标蛋白质序列,使用MMSeqs生成MSA。然后,使用DBSCAN方法对每个MSA进行聚类,生成多个子MSA;对于聚类失败的MSA,采用高斯混合模型(GMM)进行期望最大化(EM)聚类;接着,使用BLAST序列比对方法,从每个子MSA中选出相似度最高的序列,再次利用MMSeqs生成新的MSA,将所有子MSA合并为一个新的MSA,去除完全相同的序列,并对长度不一致的序列使用MAFFT添加GAP;处理后的MSA再次聚类,最终输入AlphaFold2生成蛋白质系综。本发明有效利用MSA共进化信息以预测蛋白质动态系综。