一种基于预训练模型和RNA二级结构的RNA G-四链体预测方法和系统
申请号:CN202510228817
申请日期:2025-02-28
公开号:CN119724349B
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了一种基于预训练模型和RNA二级结构的RNA G‑四链体预测方法和系统,包括,获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;对每条正样本序列进行打乱得到负样本序列;生成每条样本序列的RNA二级结构特征;使用预训练模型提取样本序列的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练。本方案利用RNA序列的二级结构特征,引入二级结构特征作为辅助信息,能够显著提升模型的预测性能。
技术关键词
序列特征
预训练模型
样本
全局平均池化
RNA二级结构
核苷酸
特征提取模块
残差网络
坐标
人类
数据
多尺度
多层感知机
注意力机制
预测系统
工具包
分层
编码