摘要
本发明涉及计算机辅助药物设计(CADD)和分子信息学领域,具体涉及一种基于环肽分子的多模态表示学习方法,用于预测环肽的细胞膜渗透性。其发明内容主要包括:(1)数据收集:整合来自ChEMBL、CycPeptMPDB和CyclicPepedia数据库以及专利文献的环肽渗透性数据;(2)多模态学习:针对不同模态数据,采用深度学习模型分别提取其特征表示。利用ChemBERTa对SMILES序列进行编码;使用Vision Transformer提取分子图像特征,基于GNN学习分子图结构和3D坐标信息;(3)多模态特征融合:采用自适应可扩展的融合机制,通过跨模态特征融合机制将SMILES特征信息整合到图像、图和3D坐标特征中,将各模态特征拼接得到多模态分子表示;(4)渗透性预测:将多模态分子表示送入全连接层进行回归预测,以评估环肽的渗透性。