基于玻尔兹曼噪音多态SMILE式训练大模型的化合物活性预测
申请号:CN202510185355
申请日期:2025-02-20
公开号:CN120048388A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种基于玻尔兹曼噪音多态SMILE式训练大模型的化合物活性预测方法,属于计算化学与人工智能交叉领域。方法包括:从Tox21数据集筛选高质量化合物活性数据,通过化学多态性将单条SMILE式扩展为500条异构式;基于生理热力学条件生成玻尔兹曼噪音修正pEC50值,构建多态性训练数据集;采用DORA技术对大型语言模型进行参数高效微调,目标为最小化预测误差。本发明的创新点在于:(1)通过化学多态性扩展实现数据增强,解决小样本学习问题;(2)引入玻尔兹曼噪音模拟生理环境下分子相互作用的不确定性;(3)结合动态低秩适配技术,在保持模型泛化能力的同时提升预测精度。实验表明,本方法在测试集上的MAE显著优于传统QSAR模型。
技术关键词
活性预测方法
微调技术
噪音值
异构
数据
大语言模型
模式匹配
预测误差
生理
工具包
分子
动态
参数
训练集
矩阵
药效
语义
立体
策略
标签