和风网标志

为什么将机器学习应用于生物学很难——但值得

日期:

Jimmy Lin 是 自由名,它正在为早期癌症检测开发基于血液的测试,从结肠癌开始。 他是开发计算方法以从大规模基因组数据中提取见解的先驱,率先对多种癌症类型的第一个全基因组测序研究进行计算分析。 

Lin 与 Future 谈到了执行公司使命以将机器学习方法和生物数据结合起来所面临的挑战。 他解释了建立平衡的技术生物公司需要雇佣哪三种类型的人、应该避免的陷阱、如何判断两个领域的结合何时有效或无效,以及适应生物学研究和机器学习的细微差别对彼此。


未来:与许多学科一样,将机器学习应用于生物的潜力令人兴奋。 但进展似乎来之不易。 与机器学习通常使用的数据类型相比,生物分子数据有什么不同吗?

JIMMY LIN:传统的机器学习数据非常广泛和浅薄。 机器学习通常解决的问题类型是人类可以在纳秒内解决的问题,例如图像识别。 要教计算机识别猫的图像,您需要训练数十亿张图像,但每张图像的数据内容相对有限。 生物学数据通常是相反的。 我们没有数十亿人。 我们很幸运能得到数千人。 但是对于每个人来说,我们都有数十亿的数据点。 我们有少量非常深的数据。

同时,生物学问题很少是人类可以解决的问题。 我们正在做的事情连这方面的世界专家都做不到。 所以,问题的性质是非常不同的,所以它需要 新思维 关于我们如何处理这个问题。

是否需要从头开始为生物分子数据构建这些方法,或者您可以调整现有方法吗?

您可以通过多种方式获取这些深度信息并对其进行特征化,以便您可以利用现有工具,无论是统计学习还是深度学习方法。 这不是直接的复制粘贴,但有很多方法可以转移许多机器学习方法并将它们应用于生物学问题,即使它不是直接的一对一映射。

深入研究数据问题,生物数据有很多可变性——有生物噪音,有实验噪音。 生成机器学习就绪的生物医学数据的最佳方法是什么? 

这是一个很好的问题。 从一开始,Freenome 就考虑了如何生成适合机器学习的最佳数据。 在从研究设计到样本收集、运行化验、再到数据分析的整个过程中,每个步骤都需要小心,以便能够针对机器学习进行优化,尤其是当您拥有比样本更多的特征时。 这是经典的 big-p little-n 问题。

首先,我们设计了我们的研究,以尽量减少混杂因素。 许多公司都依赖于历史数据集,并做了大量工作来尽量减少队列效应和消除混杂因素。 但这真的是最好的方法吗? 好吧,不,最好的方法是进行前瞻性研究,您可以预先控制混杂因素。 这就是为什么即使在我们的发现工作中,我们也决定进行一项大型多站点前瞻性试验,预先收集黄金标准数据,如我们的 AI-EMERGE 试验.

幸运的是,我们有足够信任我们的投资者,让我们能够生成这些数据。 这实际上是一个很大的风险,因为这些研究非常昂贵。 

那么一旦你得到数据,你会用它做什么?

那么,您需要以一致的方式训练所有站点,并控制来自所有不同站点的混杂因素,以便患者看起来尽可能相似。 然后,一旦您运行样本,您需要考虑如何最小化批次效应,例如将正确的样本混合以正确的比例放在不同的机器上。

这在你做的时候非常困难 多组学 因为分析一类生物分子的机器一次运行可能需要数百个样本,而分析另一类生物分子的机器可能只需要几个样本。 最重要的是,您希望消除人为错误。 因此,我们在刚刚生成训练数据的阶段就引入了自动化。

此外,当您每人拥有数十亿个数据点时,可能会非常非常容易过度拟合。 因此,我们确保我们的训练可推广到我们最终想要应用它的人群,并具有正确的统计校正和许多连续的训练和测试保持集。

将机器学习与生物分子数据相结合是许多生物技术公司正在尝试做的事情,但通常对于他们将如何做到这一点存在很多模糊性。 您认为有效整合它们的基本特征是什么?

At 自由名 我们正在融合机器学习和多组学。 为了做到这一点,你需要做好这两件事。 这里的关键是你需要在这两个方面都有很强的专业知识,然后能够说两者的语言。 你需要会双语。 

有很多公司在一个方面是专家,然后在另一个层面上撒泼。 例如,有些科技公司决定要涉足生物领域,但他们所做的只是聘请少数湿实验室科学家。 另一方面,有些生物公司雇佣了一些机器学习科学家,然后他们会宣布他们现在是一家 AI/ML 公司。 

你真正需要的是两者都有深厚的板凳力量。 您需要对系统、不同的分析方法、知识空间的特征有深入的生物学理解。 但您还需要对机器学习、数据科学、计算方法和统计学习有深入的了解,并拥有应用这些知识的平台。 

这确实具有挑战性,因为这两个领域通常非常孤立。 当您考虑为公司招聘的人员时,您如何在这两个不同的领域之间建立桥梁?

我认为您想雇用三种类型的人来在技术和生物之间架起桥梁。 前两个是你的标准,机器学习或生物学领域的专家。 但他们也需要开放并愿意了解其他领域,或者更好的是,他们有在这些额外领域工作的接触和经验。

对于机器学习专家,我们选择的人不仅在那里开发最新算法,而且想要采用最新算法并将其应用于生物学问题。 

生物学是 凌乱. 我们不仅没有测量不同分析物的所有方法,而且还在不断地发现新的生物分子和特征。 还有很多混杂因素和噪音需要考虑。 这些问题通常比标准机器学习问题更复杂,标准机器学习问题和知识空间定义得更清楚。 想要将他们的技术应用于生物学的 ML 专家需要谦虚地了解生物学中存在的复杂性,并愿意在非最佳条件和数据可用性差异的情况下工作。

另一方面是聘请生物学家,他们从更大规模的定量数据生成、设计研究以优化信噪比的角度考虑他们的问题,并意识到混杂因素和普遍性的警告。 它不仅仅是能够用代码语言说话和思考。 我们的许多生物学家已经编码并具有良好的统计背景,并且愿意并希望进入这些领域。 事实上,在 Freenome,我们实际上为想要了解更多关于编码的生物学家提供了培训计划,以便能够发展他们的统计推理能力。

更重要的是,研究设计以及我们能够提出的问题在大数据和机器学习的背景下设计时看起来会有所不同。

第三类是什么?

第三种招聘的人是最难找到的。 这些是桥梁——在这两个领域都流利工作的人。 世界上很少有地方和实验室就在这个十字路口。 找到可以翻译和桥接这两个领域的人非常非常重要。 但是你不想建立一家只有桥梁的公司,因为这些人通常不是某个领域或另一个领域的专家,因为他们所做的。 他们的理解往往更笼统。 然而,它们提供了将这两个领域结合在一起的关键工作。

因此,拥有所有三类人很重要。 如果您只有一名领域专家,那么您只会在一个领域表现出色。 或者,如果你没有桥梁建设者,那么你就会有无法相互交谈的人的孤岛。 理想情况下,团队应该包括这三种类型的人中的每一种,以便深入了解 ML 和生物学,并提供这两个领域的有效协同作用。

您是否看到技术或计算专家解决问题的方式与生物学家解决问题的方式有何不同? 

是的。 一方面,我们肯定有来自统计和定量背景的人,他们会说代码和方程式。 我们需要帮助他们理解这些方程式并以清晰的方式解释它,以便普通观众能够理解。 

生物学家有很大的想象力,因为他们研究的是看不见的东西。 他们在演示文稿中使用大量插图来帮助可视化分子上正在发生的事情,并且他们对机制和复杂性有很好的直觉。 很多这种想法是定性的。 这提供了一种不同的思考和交流方式。

所以,人们交流的方式将会非常非常不同。 关键是——我们有点开玩笑地说——我们需要以一种连你奶奶都能理解的方式进行交流。 

它需要真正掌握您的知识才能简化它,以便即使是新手也能理解。 我认为对于一个人来说,学习在正常的捷径、行话和技术语言之外交流非常困难的概念实际上是一种很好的培训。

是什么激发了您对如何将机器学习和生物学结合起来的独特观点?

所以,这个问题不是新问题,而是一个古老问题的最新迭代。 当领域 计算生物学和生物信息学 最初创建,同样的问题存在。 计算机科学家、统计学家、数据科学家,甚至物理学家都加入了生物学领域,并将他们的定量思维带到了这个领域。 与此同时,生物学家必须开始建模,超越将基因表征为上调和下调,并开始更定量地处理数据。生物数据的数字化现在规模呈指数级增长。 这个问题在范围上更加尖锐和广泛,但基本挑战仍然相同。

您如何看待告诉您婚姻是否有效的成功指标或危险信号?

如果你看看那些试图合并领域的公司,你可以很快看到他们在某一方面投资了多少。 所以,如果它是一家 90% 的人都是实验室科学家的公司,然后他们只雇佣了一两个机器学习科学家,他们称自己是一家机器学习公司,那么这可能更像是事后的想法。

在将生物学和机器学习结合的整个过程中,您是否学到了一堂带回家的课?

我认为知识上的谦逊,尤其是来自技术方面的谦逊。 例如,通过解决搜索之类的问题,所有信息都已经以文本形式存在,您可以轻松访问,并且您知道自己在寻找什么。 所以,它变成了一个可以解决的问题,对吧? 生物学的问题在于,我们甚至不知道我们在寻找什么数据集,甚至不知道我们是否有合适的手电筒来照射正确的区域。 

因此,有时当技术专家跳入生物领域时,他们会陷入过度简化的陷阱。 例如,对于下一代测序,他们可能会说:“哇。 我们可以对 DNA 进行测序。 为什么我们不直接对大量的 DNA 进行测序? 它变成了一个数据问题,然后我们解决了生物学问题。” 

但问题是 DNA 是体内数十种不同分析物之一。 有RNA,蛋白质,翻译后修饰,不同的隔室,如细胞外囊泡,以及时间、空间、细胞类型等方面的差异。 我们需要了解我们使用的每种数据模式的可能性和局限性。

虽然可能很难相信,生物学仍是一个处于起步阶段的领域。 我们刚刚 对人类基因组进行测序 二十多年前。 大多数时候,我们无法访问单个生物信号,因此我们仍在进行大量信号的综合或平均测量。 我们才刚刚开始一次测量一个细胞。 还有很多事情要做,这就是为什么现在进入生物学是一个激动人心的时刻。 

但随着婴儿期的到来,解决对人类健康和福祉产生巨大影响的问题具有巨大潜力。 这是一个非常了不起的时刻,因为我们正在开辟生物学的新领域。

什么样的境界? 是否有一个生物学或医学领域让您最兴奋地看到应用计算?

是的——一切! 但是让我想想。 在癌症方面,我相信在我们这一代人中,正在出现的新疗法和早期检测工作将把癌症转变为一种不再那么可怕的慢性疾病,就像我们为 HIV 所做的那样。 我们可能可以使用非常相似的方法来更广泛地看待疾病检测和预防。 我感到兴奋的关键是我们可以开始检测疾病是否在出现症状之前就已经存在。 

除了癌症诊断之外,真正酷的是向生物学的转变,而不仅仅是阅读和写作。 我对合成生物学领域感到兴奋,我们将生物学作为一种技术使用,无论是 CRISPR、合成肽还是合成核苷酸。 利用生物学作为一种工具,为彻底改造从农业到能源的传统资源生产行业创造了广阔的可能性。 这对成为一名生物学家来说真是一个了不起的时刻!

5 年 2022 月 XNUMX 日发布

正如那些建造它的人所说的那样,技术、创新和未来。

感谢您的注册。

检查您的收件箱以获取欢迎信息。

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?