蛋白质语言模型预训练与蛋白质突变方法及相关产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
蛋白质语言模型预训练与蛋白质突变方法及相关产品
申请号:CN202510997218
申请日期:2025-07-18
公开号:CN120895092A
公开日期:2025-11-04
类型:发明专利
摘要
本公开提供一种蛋白质语言模型预训练与蛋白质突变方法及相关产品。该蛋白质语言模型预训练方法的一具体实施方式通过获取样本蛋白质数据集合;再根据每个该样本蛋白质数据中的多序列比对在各个位点的氨基酸残基概率分布,生成该样本蛋白质数据对应的多序列比对概率分布序列;正向或反向依次串联每个样本蛋白质数据中的样本蛋白质序列以及对应的多序列比对概率分布序列和结构序列,生成与相应样本蛋白质数据对应的多模态序列;最后,基于各样本蛋白质数据对应的多模态序列对蛋白质语言模型进行自回归预训练,得到预训练蛋白质语言模型。即,通过引入多序列比对概率分布序列作为独立的中间推理模态,以及两个方向思维链,提升模型预测性能。
技术关键词
序列 多模态 样本 模型预训练 位点 数据获取模块 标识 策略 处理器 下轮 计算机程序产品 蛋白 存储装置 可读存储介质 电子设备 指令