一种基于多模态大模型的PROTAC连接子的生成方法
申请号:CN202511032909
申请日期:2025-07-25
公开号:CN120932770A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及生物医药技术领域,具体涉及一种基于多模态大模型的PROTAC连接子的生成方法。其发明内容主要包括:(1)从相关数据库获取完整的PROTAC数据,对特定的数据进行碎片化切割并过滤;(2)对收集得到的分子序列数据进行预处理,通过计算生成分子的三维数据同时收集分子对应的文本标签;(3)构建可处理包括二维和三维的分子信息的多模态编码器模块,利用分子—文本标签数据集合以及处理得到的二维数据和三维数据,采用多目标对齐分子嵌入与分子相关文本学习,包括分子—文本对比学习、分子—文本匹配和分子—文本生成;(4)利用二维和三维混合编码模块处理warhead和E3ligand的二维和三维信息,同时利用((warhead,E3ligand),(linker))分子对构建lora微调数据对大模型进行微调训练得到权重。
技术关键词
分子
生成方法
多模态
编码器模块
文本
数据
交叉注意力机制
编码模块
生物医药技术
标签
嵌入特征
阶段
三元组
序列
网络
参数