摘要
一种基于深度学习的代谢组学数据批次效应校正方法,包括批次内校正和批次间校正两个阶段。批次内校正阶段,采用SERRF方法对QC样本的进样顺序建模,识别并校正系统性漂移效应,消除同一批次内因进样顺序等因素带来的数据偏差。批次间校正阶段,首先计算各批次质心,基于各批次之间的距离确定两两校正顺序;基于生成对抗网络与自编码器的联合框架,通过对抗训练减少批次间系统性偏差,同时引入相互最近邻对齐损失,避免过度校正导致的生物学信息丢失。本发明的多批次数据成对校正顺序的批次校正方法,结合随机森林与深度对抗对齐网络的优势,构建了一个两阶段的联合校正框架。在保留生物样本真实代谢差异的同时,消除数据中的误差,为代谢组学研究提供可靠的数据支持。