摘要
本发明涉及生物信息学技术领域,尤其涉及一种癌症甲基化数据中异常高甲基化区域的识别方法。该方法包括以下步骤:获取待测样本的全基因组甲基化测序数据以及灵长类物种的基因组保守序列数据;根据全基因组甲基化测序数据对CpG位点进行基于递进式分层扫描策略的密度分析,得到CpG富集区域数据;对基因组保守序列数据进行包括短程、中程和长程三个尺度的距离计算,并根据CpG富集区域数据对计算结果进行加权校正,得到区域保守性得分数据。本发明通过无监督聚类、自适应阈值设定和多尺度特征提取,能够更精准地捕捉不同癌症类型中具有高度调控作用的高甲基化区域。