当前,CRISPR/Cas系统是应用最广泛的基因组编辑技术。它彻底改变了生命科学研究,并有望改变医学和农业。
然而,CRISPR系统在历史上一直具有设计挑战性,因为它们的分子空间很大,需要跨多个维度进行优化。
而蛋白质语言模型的出现,给CRISPR系统带来了定制化的转机。
7月30日,AI制药公司Profluent公布了一项AI驱动的 CRISPR-Cas生成系统OpenCRISPR-1,能够实现生成多样化序列的CRISPR-Cas。
这项成果以题为“Design of highly functional genome editors by modelling CRISPR–Cas sequences”,发表在顶级刊物《自然》杂志上。
这项新研究中,Profluent 研究人员使用基于大语言模型 (LLM) 的方法来设计能够精确编辑人类基因组的可编程基因编辑器。
Profluent 将其称为“第一个人工智能生成的基因编辑器”。
为了构建AI模型,数据集的建设至关重要。利用数据挖掘技术,团队构建了一个名为 CRISPR-Cas Atlas的数据集,包含 1,246,088 个 CRISPR–Cas 操作子,涵盖了多种微生物基因组和宏基因组。
设计CRISPR-Cas系统的语言建模方法概述
然后,通过微调 ProGen2蛋白质语言模型,研究人员生成了 400 万个 CRISPR–Cas 蛋白质序列,并通过严格筛选和序列聚类,发现生成的序列在多样性上比自然蛋白质有显著扩展。
例如,对于天然蛋白质很少的家族,例如 Cas13 和 Cas12a,生成的序列的多样性分别增加了 8.4 倍和 6.2 倍。
尽管许多 CRISPR-Cas 蛋白已经被用于基因编辑,但Cas9 仍然是使用最广泛的编辑蛋白。
于是,研究人员进一步利用 Cas9 特定的模型生成了 100 万个 Cas9 蛋白质序列,并构建了最大似然系统发育树,发现生成的蛋白质占据了大部分的系统发育多样性。
随后,研究人员选择了 209 个 Cas9 类似物在人类细胞中进行功能验证,发现其中一些蛋白质的编辑效率与 SpCas9 相当甚至更高。
OpenCRISPR-1与spCas9编辑效率对比
研究人员对 48 个生成的 Cas9 类似物进行了详细的编辑效率和特异性测试,发现许多生成的核酸酶具有高编辑效率和特异性,其中一些甚至优于 SpCas9。
研究人员发现,与 SpCas9 相比,生成的 Cas9 类似物在免疫原性上表现出较低的反应性。
经过实验验证表明,该模型能够生成高度功能化的 CRISPR–Cas 蛋白质,为基因编辑技术的发展提供了新的方向。
在医药领域,该模型生成的CRISPR–Cas 蛋白质可以用于开发更安全、更高效的基因治疗方案。
农业领域,基因编辑技术可以用于改良作物品种,提高作物的抗病性、抗逆性和产量。新型编辑工具的出现将为农业生物技术提供更多选择。
这就不得不提到,Profluent这家公司是何方神圣?
Profluent是一家利用 AI 设计蛋白质的生物科技公司。成立于2023年,当年即获得900万美元种子轮资金。2024年,公司获得又获得3500万美元的资金支持。
自成立以来,该公司已经发布多个AI生命科学模型,用于生成新型蛋白质,包括 proseLM、Protein2PAM 和 ProGen3。
事实上,在公司看来AI对于蛋白质的突破不仅在于设计,还包括一系列与之相关的技术进展,包括制造、细胞治疗成分和递送。
而Profluent 的目标是提供“一站式”解决方案,而不是让客户向 10 家不同的公司寻求服务。
2024 年 4 月,公司发布了OpenCRISPR-1 ,目前学术和行业研究人员已经访问了从开发抗旱作物到药物发现等各个垂直领域的开源序列。
Profluent 计划开源 CRISPR-Cas Atlas,以进一步促进基因编辑领域的民主化。
文章来自于微信公众号“智药局”,作者是“王苏”。