2020 年底,DeepMind 开发的人工智能程序 AlphaFold2 基于氨基酸序列近乎完美地精确预测出了蛋白质三维结构,预测水准与实验室水平相差无几。这一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。
消息一出,舆论一片哗然。Science 认为,科学研究的游戏已经改变了。不过,也有部分人士担忧“结构生物学家是否会因此失业”。
现实是,结构生物学家不但没有失业,反而站在“巨人”的肩膀上进行了深入研究。
日前,华盛顿大学医学院蛋白质设计研究所 David Baker 教授领导生物信息学家团队开发出了一款名为 RoseTTAFold 的深度学习工具,并于近日登上顶刊Science。
(来源:Science)
根据官方介绍,RoseTTAFold 在短短十分钟内就可以准确可靠地计算出蛋白质结构,预测水准与 AlphaFold2 水平相似。值得一提的是,RoseTTAFold 现已开源,可免费下载使用。
“希望 RoseTTAFold 工具能够持续造福整个科学研究”,主导该实验的博士后学者、也是该论文的第一作者 Minkyung Baek 如是说。
比较值得玩味的一点是,就在 David Baker 团队发布论文的同一天,DeepMind 团队也在Nature 上发文,首次公布了用于 AlphaFold2 破解蛋白质结构的详细信息。需要说明的是,该研究并未在Nature上被正式出版。
(来源:Nature)
AlphaFold2 升级版?
目前,学界的主流观点是蛋白质的一级结构决定蛋白质的三维结构,蛋白质三维结构决定了蛋白质的工作方式和功能。
尽管近年来结构解析技术不断提升,不过通过氨基酸序列预测结构确实是一种极具吸引力的方式。
去年底,AlphaFold2 在蛋白质结构预测大赛中(CASP)的预测分值中位数为 92.4 GDT,与实验室水平不相上下,而此前 20 多年间预测分值仅在 20 - 40 分之间。
AlphaFold2 在蛋白质结构预测领域取得的突破性进展,激发了全球多个科研团队的研究,David Baker 团队就是其中之一,David Baker 是蛋白质从头设计领域的泰斗级人物。早在 1998 年,David Baker 团队开发出了用于蛋白质结构预测的 Rosetta 算法平台,该平台可以构建虚拟氨基酸链,并计算出其最容易的折叠形式。
在 AlphaFold2 发布后,David Baker 带领研究团队开发出了一种新软件工具 RoseTTAFold,基于深度学习,该工具可以根据有限的信息快速准确地预测蛋白质三维结构。
根据现有信息,RoseTTAFold 可以在一台游戏计算机上运行,10 分钟内即可精准计算出蛋白质结构。
具体来说,RoseTTAFold 是一个 “三轨” 神经网络("three-track" neural network),这也意味着它可以同时考虑一维蛋白质中的氨基酸序列、二维蛋白质的氨基酸的相互作用以及蛋白质可能的三维结构。在这种架构中,一维、二维和三维信息来回流动,从而使神经网络能够共同推理出蛋白质的化学成分与其折叠结构之间的关系。
(来源:oom.uw.edu)
AlphaFold2 和 RoseTTAFold 在 CASP14 的成绩分别是 90.3 和 73.2。基于 AlphaFold2 的深度学习工具 RoseTTAFold 的预测效果也达到了很优秀的效果。
虽然与 AlphaFold2 的思路架构有部分相似,但 RoseTTAFold 并不是 AlphaFold2 的完美复制品,其还未完全达到 AlphaFold2 的预测准确度。
“它不如 DeepMind 的计算模型”,芝加哥大学的计算生物学家 Jinbo Xu 对外媒说,“但预测某些结构挺准确的,会很有帮助。”
在一次采访中,Baker 也承认 AlphaFold2 更准确。
不过,比利时根特大学的 Sabbath Sabides 教授告诉Science,“Baker 教授的 AI 算法更好地捕捉了蛋白质结构的核心和特征。”Rosettafold 不仅可以预测单个蛋白质的三维结构,还可以预测几种蛋白质的结合形式。
基于 DeepMind 现在公开的细节,David Baker 团队正在寻找造成 AlphaFold2 和 RoseTTAFold 性能之间存在差异的原因。
该团队使用 RoseTTAFold 计算了数百种新的蛋白质结构,生成了与异常脂质代谢、炎症、癌细胞生长相关的蛋白质结构。在这篇论文中,Minkyung Baek 还展示了一些可以利用这种技术制造新药的方法。他们预测了与很多疾病相关的三类蛋白质的结构,包括癌症和痴呆症,并揭示了突变与蛋白质形状,靶向药物的潜在位点之间的相互作用。
图丨左为 David Baker、右为 Minkyung Baek(来源:www.bakerlab.org)
免费开源
DeepMind 的模型遥遥领先于其他模型,准确度又高又可靠。虽然带来了轰动,但 DeepMind 并没有详细公开 AlphaFold2 预测蛋白质三维结构的具体信息,也就意味着这项成果被束之高阁,对普通的科学研究没有很强的可及性。
这是 Minkyung Baek 设计 RoseTTAFold 的出发点之一,她希望设计一款类似于 AlphaFold2 的软件程序,并免费提供给科学家们使用。
“在 biorxiv 上提供预印版本、提供网络服务器以及代码的一个潜在目的就是推动 DeepMind 尽快公开他们的代码,” Minkyung Baek 说。
事实上,RoseTTAFold 的开源一定程度上加速了 DeepMind 公开软件程序。
6 月 15 日,David Baker 团队将其论文上传到预印本平台。3 天后,DeepMind 的 CEO Demis Hassabis 在推特上宣布蛋白质结构预测工具 AlphaFold2 的“简要更新”。他还宣称,一篇概述其预测蛋白质三维结构方法的完整论文正在同行评议中,他们将为研究人员提供源代码以及更多访问权限。
本周四,DeepMind 终于迈出了重要的一步,在Nature 上发布了 AlphaFold2 模型的具体方法和代码。这是更多研究人员利用该工具解决生物学问题的第一步。
研究人员称,现在,已经将 RoseTTAFold 软件工具上传到了代码共享平台 GitHub 网站上。自 7 月 1 日以来,全球已有超 140 个研究团队下载使用了 RoseTTAfold 代码,下载次数为 250 次。DeepMind 也表示新发布的 AlphaFold2 代码比公司过去发布的代码更有用。
两个团队竞相发布的代码和研究结果不仅反映了计算生物学的进步,同时也反映出了该领域的科研成果的共享以及透明化的学术环境。
学术环境的透明化也是整个学术领域的重大进展。“ 25 年前开始举办 CASP 时,要求团队分享他们的代码几乎不可能。”马里兰大学的计算生物学家 John Moult 说。
另一个棘手问题:预测蛋白质复合物
鉴于现在已经有两个免费开源的优秀模型可供研究人员使用,研究团队正在展望解决蛋白质结构预测领域的下一个棘手问题。
DeepMind 的模型擅长预测和计算单个蛋白质的结构,然而大多数分子往往是以复合物形式存在,并非单个存在。
RoseTTAfold 模型对于多种蛋白质复合物的效果如何?
David Baker 团队的预测结果表明 RoseTTAfold 模型可以预测整个蛋白质复合物的结构。David Baker 在一封电子邮件中说:“我们很高兴通过结合 DeepMind 论文中的想法,快速改进蛋白质结构预测水平,并且模型不再只限于传统的单链蛋白质。”
据了解,Minkyung Baek 预测了两种免疫复合物之间的差异:一种由 IL-23 构成,一种由 IL-12 构成。结果表明可以帮助药物开发人员识别需要阻断的分子,从而为自身免疫性疾病开发更精准的药物。
Minkyung Baek 表明,RoseTTAFold 可用更少的时间,构建复杂生物体模型。她还指出,下一步将会继续提高软件预测蛋白质复合物的能力。
“对于已知的一些固有折叠模式,他们应该会更深入了解其折叠的科学本质(相互作用力导致结构稳定的基础),并基于此开发更好的算法;对于一些未知、稳定的构象,随着收集到的结构数量增加(包括通过传统结构生物学实验解析未知结构蛋白质和通过人工智能计算序列同源性较低但高级结构类似的蛋白质),在数据量大大增加的基础上,人工智能会算得更准;对于柔性区域,特别是复合物中只有相互作用才会形成高级结构的序列,可能需要开发更为特殊和精细的方法学。”复旦大学生命科学学院教授丁澦这样预测该团队的下一步计划。
不过,从长远来看,预测模型的效用还取决于研究团队是否有必要的基础设施,因为运行代码对基础设施有一定的要求。
将成为结构解析的主流手段?
利用实验室手段可能需要数年的研究才能解析一个蛋白质结构,而利用计算结构模型最快只需 10 分钟。
“我认为,未来 RoseTTAFold、AlphaFold2 这些蛋白质结构预测软件有望成为主流的结构解析方式。”丁澦说。
丁澦告诉生辉,对于大量比较稳定的蛋白而言,可能这些方法可以大大解放生产力,不用再做费时费力的晶体 X 射线衍射或冷冻电镜实验了,可以基于算出来的结构直接研究结构-功能关系,开发新的药物等。
对于可能存在多构象,或者说有序二级结构比例比较低的蛋白质而言,这些算法可能很难预测。因为生理状态下,这些蛋白质就是多变的,也正是这些多变性,产生了各种动态调控。
但是,稳定的蛋白 / 蛋白结构域占比更大,所以利用计算软件可以省去这一大部分费时费力的实验过程。
“了解结构的目的是阐明结构 - 功能关系,计算软件一定程度上会削弱传统的结构解析工具,但不会完全替代,其实更多的是为其他传统手段提供更多帮助。在算出大致蛋白质结构基础上,再通过其他实验技术手段,能更精确了解蛋白质的作用机理和调控机制。”丁澦补充道。