摘要
本发明涉及基因变异检测技术领域,具体是一种基于半监督学习的拷贝数变异检测方法。包括从测序读段的比对信息中获取参考基因组序列每个正常窗口的读段深度信号和映射质量信号,对所有正常窗口的读段深度信号进行GC含量偏差矫正;采用循环二进制分割算法,将所有正常窗口分割为读段深度信号均一的分段区域,结合拆分读段策略识别拷贝数变异断点位置;对映射质量信号进行归一化处理;对读段深度信号进行平滑降噪处理;为对应的分段区域标注伪标签;通过改进型密度聚类算法对所有分段区域进行聚类分析,并对异常分段区域进行整合与变异类型判定,输出拷贝数变异检测结果,实现了对拷贝数变异的高效检测,并显著提升了检测结果的准确性与可靠性。