和风网标志

人工智能工具刚刚推出近 200 个用于 CRISPR 基因编辑的新系统

日期:

CRISPR 有一个问题:财富的尴尬。

自从基因编辑系统声名鹊起以来,科学家们一直在寻找具有更高精度和准确度的变异。

一种搜索方法在细菌和其他生物的 DNA 中筛选与 CRISPR-Cas9 相关的基因。 另一种方法是在实验室中人工进化 CRISPR 组件,以赋予它们更好的治疗特性,例如在人体内更高的稳定性、安全性和效率。

这些数据存储在包含数十亿基因序列的数据库中。 虽然这些文库中可能隐藏着外来的 CRISPR 系统,但条目太多,无法搜索。

本月,由 CRISPR 先驱张峰博士领导的麻省理工学院和哈佛大学的一个团队从现有的大数据方法中获得灵感,并利用人工智能将基因序列范围缩小到与已知 CRISPR 系统相似的少数序列。

人工智能 搜索了开源数据库中不常见细菌的基因组,包括在啤酒厂、煤矿、寒冷的南极海岸和(不是开玩笑的)狗唾液中发现的细菌。

在短短几周内,该算法就确定了数千个潜在的新生物“部件”,这些部件可以构成 188 个基于 CRISPR 的新系统,其中包括一些极其罕见的系统。

几位新候选人脱颖而出。 例如,有些可以更精确地锁定目标基因进行编辑,并且副作用更少。 其他变体不能直接使用,但可以深入了解一些现有的 CRISPR 系统如何工作,例如,那些靶向 RNA 的系统,RNA 是指导细胞从 DNA 构建蛋白质的“信使”分子。

“生物多样性是一个宝库,” 说过 张. “进行这种分析可以让我们一石二鸟:既可以研究生物学,也可以找到有用的东西,”他 添加.

狂猎

尽管 CRISPR 因其在人类中的基因编辑能力而闻名,但科学家们首先在细菌中发现了该系统,它可以对抗病毒感染。

长期以来,科学家们一直在全球各地的角落和缝隙中收集细菌样本。 由于 DNA 测序的价格越来越便宜且高效,许多样本(其中一些来自池塘浮渣等意想不到的来源)已经绘制出基因蓝图并存入数据库。

张对于寻找新的 CRISPR 系统并不陌生。 “几年前,我们开始问,‘除了 CRISPR 之外还有什么,自然界中是否还有其他 RNA 可编程系统?’”Zhang 告诉 麻省理工学院新闻 今年早些时候。

CRISPR由两种结构组成。 一种是“寻血猎犬”引导RNA序列,通常长约20个碱基,针对特定基因。 另一种是剪刀状的Cas蛋白。 一旦进入细胞,猎犬就会找到目标,然后用剪刀剪断基因。 系统的更新版本,例如碱基编辑或 主要编辑,使用不同类型的 Cas 蛋白进行单字母 DNA 交换,甚至编辑 RNA 靶标。

早在2021,张的实验室追溯了 CRISPR 家谱的起源,确定了一个全新的家族谱系。 这些被称为 OMEGA 的系统使用外来引导 RNA 和蛋白质剪刀,但它们仍然可以轻松地剪切培养皿中培养的人类细胞中的 DNA。

最近,该团队 扩大了他们的搜索范围 生命的一个新分支:真核生物。 这个家族的成员(包括植物、动物和人类)的 DNA 紧紧包裹在坚果状结构内。 相比之下,细菌没有这些结构。 通过筛选真菌、藻类和蛤(是的,生物多样性是奇怪而令人敬畏的),研究小组发现了他们称之为 Fanzors 的蛋白质,可以通过重新编程来编辑人类 DNA——这是真核生物中也存在类似 CRISPR 的机制的第一个证据。

但我们的目标并不是仅仅为了寻找闪亮的新基因编辑器。 相反,它是利用大自然的基因编辑能力来建立一系列基因编辑器,每个基因编辑器都有自己的优势,可以治疗遗传性疾病并帮助我们了解身体的内部运作。

总的来说,科学家们发现了六种主要的 CRISPR 系统——例如,一些系统与不同的 Cas 酶合作,而另一些则专门研究 DNA 或 RNA。

“大自然真是太神奇了。 多样性如此之多,”张 说过。 “可能还有更多的 RNA 可编程系统,我们正在继续探索,希望能发现更多。”

生物工程拼字游戏

这就是该团队构建名为 FLSHclust 的新人工智能的目的。 他们将分析大得令人眼花缭乱的数据集的技术(例如突出大量文档、音频或图像文件中相似性的软件)转变为寻找与 CRISPR 相关基因的工具。

完成后,该算法会分析细菌的基因序列,并将它们分组——有点像将颜色聚集成彩虹,将相似的颜色分组在一起,这样就更容易找到你想要的颜色。 从这里开始,团队开始研究与 CRISPR 相关的基因。

该算法梳理了多个开源数据库,包括数十万个细菌和古细菌基因组以及数百万个神秘 DNA 序列。 总之,它扫描了数十亿个蛋白质编码基因,并将它们分为大约 500 亿个簇。 在这些基因中,研究小组鉴定出了 188 个尚未被证实与 CRISPR 相关的基因,这些基因可以构成数千个新的 CRISPR 系统。

由微生物开发的两个系统 胆量 动物和 黑海,使用了 32 个碱基的引导 RNA,而不是 CRISPR-Cas20 中通常使用的 9 个碱基。 就像搜索查询一样,查询越长,结果就越精确。 这些较长的引导RNA“查询”表明该系统可能具有更少的副作用。 另一个系统就像之前基于 CRISPR 的诊断系统,称为 夏洛克,它可以快速感知来自传染性入侵者的单个 DNA 或 RNA 分子。

当在培养的人类细胞中进行测试时,这两个系统都可以剪切目标基因的单链并以大约 13% 的效率插入小的基因序列。 听起来不多,但这是一个可以改进的基线。

该团队还发现了一种新的 CRISPR 系统的基因,该系统针对的是科学界此前未知的 RNA。 只有在仔细检查后才发现,这个版本和尚未发现的任何版本似乎都不容易被世界各地的细菌采样捕获,因此在自然界中极为罕见。

“其中一些微生物系统只在煤矿的水中发现,” 说过 研究作者 Soumya Kannan 博士。 “如果有人对此不感兴趣,我们可能永远不会看到这些系统。”

现在判断这些系统是否可以用于人类基因编辑还为时过早。 例如,那些随机切割 DNA 的技术对于治疗目的来说是毫无用处的。 然而,人工智能可以挖掘大量的遗传数据,以找到潜在的“独角兽”基因序列,现在可供其他科学家进行进一步探索。

图片来源: 美国国立卫生研究院

现货图片

最新情报

现货图片