一种采用渐近式搜索MSA的蛋白质系综预测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种采用渐近式搜索MSA的蛋白质系综预测方法
申请号:CN202510048792
申请日期:2025-01-13
公开号:CN119964645B
公开日期:2025-11-28
类型:发明专利
摘要
一种采用渐近式搜索MSA的蛋白质系综预测方法,首先,给定目标蛋白质序列,使用MMSeqs生成MSA。然后,使用DBSCAN方法对每个MSA进行聚类,生成多个子MSA;对于聚类失败的MSA,采用高斯混合模型(GMM)进行期望最大化(EM)聚类;接着,使用BLAST序列比对方法,从每个子MSA中选出相似度最高的序列,再次利用MMSeqs生成新的MSA,将所有子MSA合并为一个新的MSA,去除完全相同的序列,并对长度不一致的序列使用MAFFT添加GAP;处理后的MSA再次聚类,最终输入AlphaFold2生成蛋白质系综。本发明有效利用MSA共进化信息以预测蛋白质动态系综。
技术关键词
序列比对方法 高斯混合模型 概率密度函数 聚类 协方差矩阵 数据 邻域 参数 核苷酸 家族 校正 蛋白 因子 核心 指标 代表 动态
系统为您推荐了相关专利信息
不确定性模型 可再生能源 多项式 电力系统 多状态
三维地质模型 土体参数 建模方法 网格 协方差矩阵
智能监控系统 流化床 丸剂 多变量统计分析 智能控制模块
局放数据 GIS设备 数据传输方法 超声波局放探头 数据传输系统
移动设备控制系统 多光谱传感器 网格 外部设备 可见光图像