2024年2月14日,西湖云谷智药研发团队成员在Cell Reports上发表研究论文Machine learning-based prediction models to guide the selection of Cas9 variants for efficient gene editing。该论文介绍了团队开发的基于机器学习的预测模型,用于指导Cas9变体的选择,以实现高效的基因编辑。论文链接:https://www.cell.com/cell-reports/fulltext/S2211-1247(24)00093-7。
【背景介绍】 Cas9介导的基因编辑系统由Cas9核酸酶和gRNA组成,确保了Cas9核酸酶对靶序列的特异性。与靶序列相邻的PAM序列极大地影响了Cas9的编辑效率和编辑范围。CRISPR-Cas9 系统已用于微生物、动物、植物和人类细胞的基因编辑,目前已发现了来自不同物种的多种同源核酸酶,如SpCas9、FrCas9、CjCas9、NmCas9、PpCas9和SaCas9等。其中,SpCas9因其基因编辑效率高而被广泛采用,其他核酸酶由于裂解活性较弱而不适用于高效率的应用。此外,对 Cas9 诱导的双链断裂(DSB)修复结果的深入研究表明其存在显著的脱靶效应,会导致替换、插入、缺失和 DNA 易位。为了提高 Cas9 基因编辑的准确性并减少不良的 DSB 修复副产物,研究人员通过修改 SpCas9 以获得更好的编辑特异性。例如,将单个突变 (R691A) 引入野生型 SpCas9 (SpCas9-WT) 中,并命名为高保真Cas9 (HiFi Cas9)。与 SpCas9-WT 相比,HiFi Cas9 在某些基因组位点显示出相似的编辑效率,但脱靶效应更低。此外,SpCas9 中的一系列优化突变大大提高了 Cas9 变体的编辑特异性,而没有降低编辑活性,其中较为出名的包括 eSpCas9 (1.1)、SpCas9-HF1、evoCas9、Sniper-Cas9 和 HypaCas9。
Cas9 编辑活性和后续产物主要受 Cas9 酶本身和 gRNA 的影响。因此,酶和gRNA的优化是基因治疗等临床应用领域中大幅提高基因编辑效率和准确性的关键。当前,日益增多的Cas9变体引起了科研领域广泛的兴趣,这些新的 Cas9 变体是为了扩大CRISPR的应用而设计的,因此通常具有更高的编辑效率、改进的编辑特异性或不同的PAM 序列。为了选择Cas9变体和gRNA进行高保真和高效的基因组编辑,系统地量化gRNA的编辑性能并开发基于高质量数据集的预测模型至关重要。
尽管一些 Cas9 变体在一些靶位点具有与 SpCas9-WT 相当的编辑活性和特异性,但仍缺乏高通量分析。目前主要有两种分析策略,一种是将基因编辑效率与基因敲除表型相结合,通过基因敲除来反映编辑效率。然而,基因敲除引起的表型差异与基因编辑效率并不成比例。另一种常见的方案是合成gRNA-靶序列对,并直接计算靶序列在人细胞中的插入或缺失(indel)频率。该方案结合机器学习,为预测gRNA的活性和特异性提供了一个强有力的工具。虽然已经有基于深度学习的gRNA预测模型,但大多数模型仅用于靶向预测,用于脱靶效应预测的资源有限,一些有应用前景的变体也未得到评估。
在这项研究中,团队成员生成了一个包含四种 Cas9 变体(SpCas9-NG、HiFi Cas9、Sniper-Cas9、LZ3 Cas9)的数据库,其中包含超过 360,000 个 gRNA-靶序列对。通过使用合成的 gRNA-靶序列对文库和下一代测序技术,我们比较了四种 SpCas9 变体的 gRNA 活性和特异性,发现PAM远端区域的核苷酸组成对HiFi Cas9和LZ3 Cas9的编辑效率影响较大。我们进一步开发了机器学习模型来预测四种 Cas9 变体的效率和特异性。
为了评估模型的性能,我们选择了 37 个内源性位点和几个公开可用的数据集,在此基础上,比较了几种广泛使用的预测工具与我们的模型的预测效果。 首先,我们随机选择了37个靶向人类基因组的 gRNA,并计算了它们的插入缺失频率与从预测算法中获得的相对预测分数之间的 Spearman 相关系数。三种 Cas9 变体模型(AIdit_ON_HiFi、AIdit_ON_Sniper、AIdit_ON_LZ)表现出了出色的性能。此外,在三种高保真Cas9变体之间观察到的高度相关性表明,它们在靶位点的不同位置可能具有相似的基因组编辑活性和核苷酸偏好。此外,我们采用了 DeepSpCas9variants 的测试数据集进行验证。我们对数据进行了过滤,并选择了具有NGG PAM的gRNA,筛选之后,SpCas9-NG的数据涉及777个gRNA,Sniper-Cas9的数据包含926个gRNA。预测结果显示,我们的模型在所有的预测工具中表现出了最佳性能。基于先前的观察,我们尝试进一步评估预测模型是否适用于其他细胞,结果表明我们的模型在HEK293T细胞中表现良好。综上所述,对于PAM为NGG的靶位点,AIdit_ON模型能为gRNA选择提供强有力的支持。
除了传统的机器学习,我们还尝试了深度学习模型,但它们并没有表现出更好的性能。主要原因可能是整个数据集来源于少量的总gRNA,因而脱靶数据集中的信息可能不足以开发性能良好的深度学习模型。
为了给来自不同研究领域的用户带来更好的使用体验,我们的网站提供了一个清晰的使用手册,以指导用户选择合适的gRNA在所需的基因组位点进行基因编辑,并根据我们的gRNA活性和特异性预测模型预测潜在的脱靶位点。该网站可通过 https://crispr-aidit.com/home 访问。
bd@westlakegenetech.com | |
浙江省杭州市西湖区转塘街道云梦路1号1幢6楼 |