DeepMind 利用AI 重塑蛋白质科学

推荐 03-07 阅读:15 评论:0

“DeepMind 利用AI 重塑生物学”

AlphaFold 颠覆蛋白质结构预测

上个世纪最大的问题之一是如何确定蛋白质的结构。六十年来,数以万计的生物学家煞费苦心地研究出了15万种蛋白质的结构。然后在短短几年内,一个由大约15人组成的团队确定了2亿种蛋白质的结构。这基本上是已知自然界存在的每种蛋白质。他们就是DeepMind的AlphaFold团队,而他们成功的秘诀就是AI。

3D结构决定了蛋白质的功能

蛋白质由一串氨基酸组成。每个氨基酸的中心都有一个碳原子。一边是胺基,另一边是羧基。侧链决定了这个分子是20种不同的氨基酸中的哪一种。一种氨基酸的胺基可以与另一种氨基酸的羧基反应形成肽键。因此,一系列氨基酸可以结合形成一条链,无数分子之间的推拉力、静电力、氢键、溶剂相互作用会导致这条链卷起并折叠起来,最终决定了蛋白质的3D结构。3D结构是蛋白质真正重要的东西。它是为特定目的而构建的,血红蛋白拥有完美的结合位点来携带血液中的氧气;移动肌肉中的蛋白质会稍微改变形状以便拉伸和收缩。为了一种蛋白质的结构,科学家开始是通过实验的方法获得答案。

第一个发现的蛋白质结构:肌红蛋白

确定蛋白质结构的第一种方法是从该蛋白质中产生晶体。然后将其暴露在X射线下以获得衍射图案,然后科学家会逆向工作,试图找出什么形状的分子会产生这样的图案。英国生物化学家约翰·肯德鲁花了12年的时间才获得第一个蛋白质结构。他的目标是一种叫做肌红蛋白的储氧蛋白,它是心脏中的重要蛋白质。潜水哺乳动物的肌肉中会有很多肌红蛋白,因为它们最擅长保存氧气。他从秘鲁获得了一大块鲸鱼肉,最终让肯德鲁获得了足够大的晶体来创建X射线衍射图像。最终得到的蛋白质结构是错综复杂,这种被称为世纪粪便Turd of the century的结构为肯德鲁赢得了1962年诺贝尔化学奖。在接下来的二十年里,只有大约一百种结构被解析。

蛋白质结构预测的工作量巨大

即使在今天,蛋白质结晶仍然是一个巨大的挑战。而且它很昂贵。X射线晶体方法确认一种蛋白质的成本可能高达数万美元。因此,科学家们寻求另一种方法来研究蛋白质结构:找到蛋白质的氨基酸序列,然后结合基本的分子动力学,预测蛋白质如何折叠。这是一个复杂的过程,麻省理工学院的生物学家赛勒斯·列文塔尔做了一个粗略的计算,一条只有35个氨基酸的短蛋白质链,计算机每纳秒检查30000种配置的能量不稳定性,也需要200倍的宇宙年龄才能找到正确的结构。

CASP蛋白质结构预测竞赛

马里兰大学教授约翰·莫尔特于1994年发起了一项名为CASP的竞赛。挑战很简单,设计一个计算机模型,输入获取氨基酸序列并输出其结构。建模者事先并不知道正确的结构,但每个模型的输出将与实验确定的结构进行比较。完美匹配将获得100分,但超过90分则被认为足够接近,结构已解析。在第一年,团队得分都不能超过 40 分。

David Baker通过Fold It游戏,让玩家参与结构预测

早期的领跑者是华盛顿大学生物学家David Baker的名为Rosetta的算法。他不仅通过汇集家庭、学校和图书馆中自愿安装其软件Rosetta at Home的闲置计算机的处理能力来提高计算能力,之后还创建了名为Fold it的视频游戏。游戏设置了一个能够扭曲和变成不同排列的蛋白质链,通过游戏玩家进行移动。在三周内,超过50000名游戏玩家齐心协力,破译了在HIV中起关键作用的酶。X 射线晶体学表明他们的结果是正确的。这些游戏玩家甚至被列为该研究论文的共同作者。

DeepMind开发AlphaFold研究蛋白质结构

其中一名玩过Fold It的人是前国际象棋神童Demis Hassabis,他创办了一家DeepMind。他们的AI算法AlphaGo 因在围棋比赛中击败世界冠军李世石而登上头条新闻。Hassabis 从未忘记自己作为Fold It玩家的时光。他发起了一个名为Alpha Fold的新项目来解决蛋白质折叠问题。与此同时,在CASP 上,包括Rosetta在内的最佳预测模型的预测质量已经稳定下来。事实上,在CASP 8之后,其表现开始下滑。即使计算机速度更快,蛋白质数据库中可供训练的结构越来越多,预测结果仍然不够好。DeepMind希望通过AlphaFold改变这一现状。

采用标准深度神经网络,以氨基酸序列和进化表为输入

AlphaFold 1是一个标准的深度神经网络,将蛋白质的氨基酸序列和进化提供的一组重要线索作为输入。进化是由突变驱动的,突变是遗传密码的变化,反过来又会改变给定蛋白质序列中的氨基酸。但随着物种的进化,蛋白质需要保留允许它们发挥特定功能的形状。例如,人类、猫、马和基本上任何哺乳动物的血红蛋白看起来都一样。所以我们可以在这个进化表中比较不同物种中相同蛋白质的序列。如果序列相似,它们很可能对蛋白质的结构和功能很重要。但即使序列不同,查看突变成对发生的位置也很有帮助,因为它们可以识别最终结构中哪些氨基酸彼此接近。

AlphaFold 1 训练过程

假设两种氨基酸,一种带正电的赖氨酸和一种带负电的谷氨酸在折叠的蛋白质中相互吸引和保持。如果突变将赖氨酸变成带负电的氨基酸,它会排斥谷氨酸并使整个蛋白质不稳定。因此,另一个突变必须用带正电的氨基酸替换谷氨酸。这被称为共同进化。这些进化表是 AlphaFold 的重要输入。作为输出,AlphaFold不会直接生成3D结构,而是预测该结构的更简单的2D对表示。氨基酸序列水平和垂直排列。每当两种氨基酸在最终结构中彼此接近时,它们对应的行列交叉点就会变亮。远处的氨基酸对会变暗。除了距离之外,氨基酸对表示还可以保存有关氨基酸分子在结构内如何扭曲的信息。AlphaFold 1 将蛋白质序列及其进化表输入其深度神经网络,该网络经过训练可以预测氨基酸对表达。一旦得到这个,一个单独的算法就会根据距离和扭转约束折叠氨基酸链,从而得到最终的蛋白质结构预测。

CASP 13夺冠,但得分只有70

凭借这一框架,AlphaFold进入了CASP 13,并立即引起了人们的关注。经过多次补充,它成为了明显的赢家,但它的得分为70,不足以达到CASP 的90分门槛。DeepMind 需要重新开始,以获得更好的结果。因此,哈萨比斯招募了约翰·江珀 (John Jumper) 来领导 AlphaFold,开启AlphaFold 2的开发。

参考Transformer架构,设计并训练AlphaFold 2

当AlphaFold 2团队寻找更好的算法时,他们转向了transformer。Transformer依赖于一个叫做注意力的概念。大型语言模型使用注意力来预测最合适的单词添加到句子中,AlphaFold也有顺序信息,不是句子,而是氨基酸序列。AlphaFold 团队构建了他们自己的Transformer 版本,称为EVO Former。EVO Former包含两个塔,生物塔中的进化信息和几何塔中的配对表示。AlphaFold 1的深度神经网络从一座塔开始并预测另一座塔,而AlphaFold 2的EVO Former分别构建每个塔。它从一些初始猜测开始,像以前一样从已知数据集中获取进化表,以及基于相似已知蛋白质的配对表示。这一次,有一座桥梁连接着两座塔,来回传递新发现的生物和几何线索。在生物塔中,对列应用注意力可以识别出已保存的氨基酸序列。而沿着行,它会发现一起发生的氨基酸突变。每当 EVO Former 在进化表中发现过于紧密连接的氨基酸时,这意味着它们对结构很重要,它会将这些信息发送到几何塔。在这里,注意力被用来帮助计算氨基酸之间的距离。

引入三角注意力机制

EVO Former还引入了三角注意力机制,本质上是让三元组相互关注。对于每个氨基酸三元组,AlphaFold都会应用三角不等式,确保两边之和必须大于第三边。这限制了这三种氨基酸之间的距离。此信息用于更新配对表示,有助于模型生成自洽的结构图像。如果几何塔发现两种氨基酸不可能彼此靠近,那么它会告诉第一个塔忽略它们在进化表中的关系。EVO Former中的这种信息交换持续48次,直到两个塔中的信息都得到细化。

设计了结构模块

这个网络学习到的几何特征被传递到AlphaFold 2创新设计的结构模块。对于每个氨基酸,选择氨基酸中的三个特殊原子定义一个框架。假设所有氨基酸都从原点开始,然后预测适当的平移和旋转,以将这些框架移动到它们在真实结构中的位置。结构模块会输出一个3D蛋白质,它至少还要通过Evo Former循环三次,以更深入地了解蛋白质,然后才能做出最终的预测。

将蛋白质科学推进了几十年

2020年12月,DeepMind带着AlphaFold 2重返CASP,这一次他们成功了。 对于许多蛋白质,AlphaFold 2预测与实际结构几乎无法区分,它们最终超过了90分的黄金标准分数。六十年来,全世界研究蛋白质的科学家辛苦地发现了大约 15 万种蛋白质结构。然后,AlphaFold一举揭开了超过2亿种蛋白质结构。几乎所有已知存在于自然界的蛋白质。在短短几个月内,AlphaFold 就将全球研究实验室的工作推进了几十年。它直接帮助开发了疟疾疫苗;使抗生素耐药性酶的分解成为可能;使许多救命药物再次有效。它甚至帮助我们了解蛋白质突变如何导致从精神分裂症到癌症的各种疾病,研究鲜为人知和濒危物种的生物学家突然能够接触到蛋白质及其生命机制。AlphaFold 2论文已被引用超过3万次,使我们对生命的理解有了重大飞跃。

AI正在科学领域创造变革性的飞跃

AI对蛋白质所做的只是它在其他领域和更大规模上所能做的一小部分。例如,在材料科学领域,DeepMind的GNoME计划发现了220万个新晶体,其中包括40多万种稳定材料,可以为从超导体到电池的未来技术提供动力。AI正在通过帮助解决阻碍人类进步的一些基本问题,在科学领域创造变革性的飞跃。

网友评论