摘要
本发明提出不完整多组学癌症亚型数据聚类方法,属于机器学习领域,包括:利用变分自编码器为每个样本生成共享潜在表示和组学特定潜在表示,捕捉组学特定的生物学特征,并通过重构损失和KL散度正则化表示分布;采用扩散模型框架融合多组学的共享潜在表示和组学特定潜在表示,生成综合表示,有效处理不完整数据并增强多组学信息的综合提取;通过双级对比学习优化综合表示并增强表示的一致性;通过联合优化聚类损失、重构损失和语义对比损失联合优化聚类输入以生成高质量的潜在表示,基于联合优化后的聚类输入,使用改进的K‑means聚类算法对多组学数据进行分析,得到最终的癌症亚型聚类结果。本发明能够提高癌症亚型识别的准确性和鲁棒性。