DeepMind 利用AI 重塑蛋白质科学
推荐
03-07
阅读:15
评论:0
“DeepMind 利用AI 重塑生物学”
AlphaFold 颠覆蛋白质结构预测
3D结构决定了蛋白质的功能
第一个发现的蛋白质结构:肌红蛋白
蛋白质结构预测的工作量巨大
CASP蛋白质结构预测竞赛
David Baker通过Fold It游戏,让玩家参与结构预测
DeepMind开发AlphaFold研究蛋白质结构
采用标准深度神经网络,以氨基酸序列和进化表为输入
AlphaFold 1是一个标准的深度神经网络,将蛋白质的氨基酸序列和进化提供的一组重要线索作为输入。进化是由突变驱动的,突变是遗传密码的变化,反过来又会改变给定蛋白质序列中的氨基酸。但随着物种的进化,蛋白质需要保留允许它们发挥特定功能的形状。例如,人类、猫、马和基本上任何哺乳动物的血红蛋白看起来都一样。所以我们可以在这个进化表中比较不同物种中相同蛋白质的序列。如果序列相似,它们很可能对蛋白质的结构和功能很重要。但即使序列不同,查看突变成对发生的位置也很有帮助,因为它们可以识别最终结构中哪些氨基酸彼此接近。AlphaFold 1 训练过程
假设两种氨基酸,一种带正电的赖氨酸和一种带负电的谷氨酸在折叠的蛋白质中相互吸引和保持。如果突变将赖氨酸变成带负电的氨基酸,它会排斥谷氨酸并使整个蛋白质不稳定。因此,另一个突变必须用带正电的氨基酸替换谷氨酸。这被称为共同进化。这些进化表是 AlphaFold 的重要输入。作为输出,AlphaFold不会直接生成3D结构,而是预测该结构的更简单的2D对表示。氨基酸序列水平和垂直排列。每当两种氨基酸在最终结构中彼此接近时,它们对应的行列交叉点就会变亮。远处的氨基酸对会变暗。除了距离之外,氨基酸对表示还可以保存有关氨基酸分子在结构内如何扭曲的信息。AlphaFold 1 将蛋白质序列及其进化表输入其深度神经网络,该网络经过训练可以预测氨基酸对表达。一旦得到这个,一个单独的算法就会根据距离和扭转约束折叠氨基酸链,从而得到最终的蛋白质结构预测。CASP 13夺冠,但得分只有70
凭借这一框架,AlphaFold进入了CASP 13,并立即引起了人们的关注。经过多次补充,它成为了明显的赢家,但它的得分为70,不足以达到CASP 的90分门槛。DeepMind 需要重新开始,以获得更好的结果。因此,哈萨比斯招募了约翰·江珀 (John Jumper) 来领导 AlphaFold,开启AlphaFold 2的开发。参考Transformer架构,设计并训练AlphaFold 2
当AlphaFold 2团队寻找更好的算法时,他们转向了transformer。Transformer依赖于一个叫做注意力的概念。大型语言模型使用注意力来预测最合适的单词添加到句子中,AlphaFold也有顺序信息,不是句子,而是氨基酸序列。AlphaFold 团队构建了他们自己的Transformer 版本,称为EVO Former。EVO Former包含两个塔,生物塔中的进化信息和几何塔中的配对表示。AlphaFold 1的深度神经网络从一座塔开始并预测另一座塔,而AlphaFold 2的EVO Former分别构建每个塔。它从一些初始猜测开始,像以前一样从已知数据集中获取进化表,以及基于相似已知蛋白质的配对表示。这一次,有一座桥梁连接着两座塔,来回传递新发现的生物和几何线索。在生物塔中,对列应用注意力可以识别出已保存的氨基酸序列。而沿着行,它会发现一起发生的氨基酸突变。每当 EVO Former 在进化表中发现过于紧密连接的氨基酸时,这意味着它们对结构很重要,它会将这些信息发送到几何塔。在这里,注意力被用来帮助计算氨基酸之间的距离。引入三角注意力机制
EVO Former还引入了三角注意力机制,本质上是让三元组相互关注。对于每个氨基酸三元组,AlphaFold都会应用三角不等式,确保两边之和必须大于第三边。这限制了这三种氨基酸之间的距离。此信息用于更新配对表示,有助于模型生成自洽的结构图像。如果几何塔发现两种氨基酸不可能彼此靠近,那么它会告诉第一个塔忽略它们在进化表中的关系。EVO Former中的这种信息交换持续48次,直到两个塔中的信息都得到细化。设计了结构模块
这个网络学习到的几何特征被传递到AlphaFold 2创新设计的结构模块。对于每个氨基酸,选择氨基酸中的三个特殊原子定义一个框架。假设所有氨基酸都从原点开始,然后预测适当的平移和旋转,以将这些框架移动到它们在真实结构中的位置。结构模块会输出一个3D蛋白质,它至少还要通过Evo Former循环三次,以更深入地了解蛋白质,然后才能做出最终的预测。将蛋白质科学推进了几十年
2020年12月,DeepMind带着AlphaFold 2重返CASP,这一次他们成功了。 对于许多蛋白质,AlphaFold 2预测与实际结构几乎无法区分,它们最终超过了90分的黄金标准分数。六十年来,全世界研究蛋白质的科学家辛苦地发现了大约 15 万种蛋白质结构。然后,AlphaFold一举揭开了超过2亿种蛋白质结构。几乎所有已知存在于自然界的蛋白质。在短短几个月内,AlphaFold 就将全球研究实验室的工作推进了几十年。它直接帮助开发了疟疾疫苗;使抗生素耐药性酶的分解成为可能;使许多救命药物再次有效。它甚至帮助我们了解蛋白质突变如何导致从精神分裂症到癌症的各种疾病,研究鲜为人知和濒危物种的生物学家突然能够接触到蛋白质及其生命机制。AlphaFold 2论文已被引用超过3万次,使我们对生命的理解有了重大飞跃。AI正在科学领域创造变革性的飞跃
AI对蛋白质所做的只是它在其他领域和更大规模上所能做的一小部分。例如,在材料科学领域,DeepMind的GNoME计划发现了220万个新晶体,其中包括40多万种稳定材料,可以为从超导体到电池的未来技术提供动力。AI正在通过帮助解决阻碍人类进步的一些基本问题,在科学领域创造变革性的飞跃。