摘要
本发明提供一种基于机器学习模型对内分泌干扰物的富集需求预测方法,包括获取目标内分泌干扰物的分子结构信息;计算目标内分泌干扰物的分子描述符;将分子描述符输入经过训练的机器学习模型中;输出目标内分泌干扰物是否需要采用复合固相萃取进行富集后才能有效检测。本发明的有益效果是构建内分泌干扰物的分子描述符与富集效能的非线性映射模型,通过SMOTE过采样与Y随机化测试确保模型稳健性;联合递归特征消除,锁定与富集需求强相关的关键描述符,SHAP值解析理化性质对预测结果的贡献;可以拓展将模型预测的富集需求与ToxCast中12种受体活性数据结合,量化复合固相萃取对毒性效应贡献的增益,强化毒性物质的识别。