一种基于蛋白质语言模型与多模态神经网络的通用HLA抗原呈递预测方法及系统
申请号:CN202510919708
申请日期:2025-07-04
公开号:CN120748513A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于蛋白质语言模型与多模态神经网络的通用HLA抗原呈递预测方法,首先,从免疫表位数据库提取已验证的HLA结合肽段序列,结合蛋白质数据库生成等量的非表位肽段序列,构建HLA‑I类与HLA‑II类的平衡数据集。随后,利用蛋白质语言模型提取肽段序列的序列嵌入特征与接触图结构信息;通过图神经网络处理接触图构建的蛋白质图以获得全局结构特征,同时采用一维卷积神经网络(1DCNN)对序列嵌入进行区域卷积与残差卷积处理,提取局部上下文序列特征。本发明有效融合了序列语义与空间结构信息,提升了HLA抗原呈递预测的准确性与泛化能力,适用于多种HLA亚型下的免疫识别建模任务。
技术关键词
节点特征
结构编码器
嵌入特征
卷积特征
一维卷积神经网络
矩阵
样本
全局平均池化
下一代测序数据
空间结构信息
模块
多模态特征
线性单元
序列特征
传播算法
蛋白