用于精准育种的动态多模态生物序列分阶段预训练系统及方法
申请号:CN202510820065
申请日期:2025-06-18
公开号:CN120877872A
公开日期:2025-10-31
类型:发明专利
摘要
本发明提供了一种用于精准育种的动态多模态生物序列分阶段预训练系统,包含多模态数据组织单元,用于采集单模态序列、生成二模态配对序列并构建三模态互穿序列,模拟生物信息传递;统一序列表示单元,用于对各模态序列统一分词并添加模态标记;渐进式预训练策略单元,用于分三阶段训练,结合模拟退火策略动态调整模态混合比例;跨模态自回归单元实现模态间预测转换;序列特征提取与预测单元用于获取定量预测值。还提供了一种用于精准育种的动态多模态生物序列分阶段预训练方法。如此,本发明能够显著提高生物序列特征预测精度,加快训练收敛速度,具有与大型模型相当的性能,成本低,能够在多种环境中灵活部署,为生物序列分析提供高效、精准、低成本的技术支持。
技术关键词
预训练系统
关系分析方法
预训练方法
多模态
分阶段
生物
动态
跨模态
标记
微调单元
预训练模型
数据
策略
分词
序列特征
核苷酸
扩展模块
词典