利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法
申请号:CN202511454426
申请日期:2025-10-13
公开号:CN120932734A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及一种利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法,具体为包含进化信息的肽序列AI模型训练方法。创新性引入中介序列,解决肽因序列过短而无法直接获取进化信息的问题。首先对肽数据集构建MSA,对于其中无法构建有效MSA的,将其序列与蛋白数据库进行比对,选取具有高同源性和适当长度的中介序列,随后构建中介序列的MSA数据,用于引导Al模型捕获进化特征。模型训练采用扩散语言掩码机制和MSA Transformer,在肽MSA中随机掩蔽全部区域,中介MSA中掩蔽肽映射区域,对肽进行嵌入建模和生成。该方法可捕获稀疏的肽进化信息,实现肽的语义建模与高效生成,适用于药物设计、蛋白工程等领域中的肽序列优化与合成。
技术关键词
序列 搜索工具 AI模型训练方法 掩码策略 编码结构 生成方法 编码器 数据 机制 多肽 字符 格式 蛋白 框架 模式 语义 冗余 药物