转载自Science AI
作者:雪松、凯霞
这次,AlphaFold 的预测结果几乎覆盖了人类所有的蛋白质结构,而且将免费开放给公众。这将是科学界的一笔宝贵财富。
生命所必需的每一次基础生物学活动几乎都是由蛋白质带来的。蛋白质参与创建细胞和组织并保持着它们的形状;构成维持生命所需化学反应的催化酶;充当分子工厂、转运工具和马达;充当细胞通讯的信号和接收器等等。
蛋白质由很多氨基酸长链组成,通过折叠成精确的 3D 结构来完成无数的任务。这些结构控制着它们与其它分子互动的方式,决定了其功能以及它在疾病中的功能紊乱程度。阐明蛋白质的结构是分子生物学的核心议题,更是治疗患者、拯救生命、改变生活的医学发展的核心。
在这一领域,DeepMind 的 AlphaFold 被寄予厚望。在上周发表在《自然》杂志上的一篇论文中,DeepMind 表示,AlphaFold 预测的蛋白质结构已经能达到原子水平的准确度。
如今,这一成果的最大回报已经到来:其中一个研究小组刚刚宣布,他们已经使用新开发的 AlphaFold 预测出了 35 万种蛋白质的结构,包括人类基因组所表达的约 2 万种蛋白质和其他 20 种生物学研究中常用模式生物(如大肠杆菌、酵母和果蝇)的蛋白质,是以前用实验方法解决的蛋白质数量的两倍多。该组织表示,未来,他们还将继续扩大预测的范围,将预测数量扩展至已编目的所有蛋白质,这大约要覆盖 1 亿个分子。
最重要的是,DeepMind 还与欧洲生物信息研究所(EMBL-EBI)合作建立了一个平台——AlphaFold DB(AlphaFold 蛋白质结构数据库),将他们的预测结果免费开放给公众。这将涵盖 98.5% 的几乎所有人类蛋白。
DeepMind 创始人兼首席执行官 Demis Hassabis 博士说:「我们使用 AlphaFold 生成了人类蛋白质组最完整、最准确的图片。我们相信这是迄今为止人工智能对推进科学知识所做的最重要贡献,也是人工智能可以为社会带来的各种好处的一个很好的例证 。」
这项最新的研究成果于 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」为题发表在《自然》杂志上。
研究发现,AlphaFold 能对人类蛋白质组 58% 的氨基酸的结构位置给出可信预测。其中,对 35.7% 的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,AlphaFold 对 43.8% 的蛋白的至少四分之三的氨基酸序列给出了可信预测。预测信息将通过 EMBL-EBI 托管的公用数据库免费向公众开放。
清华大学生命科学学院的龚海鹏副教授告诉机器之心——ScienceAI,「这项工作影响非常深远,将在很大程度上改变相关领域的科研模式」,而且从事蛋白质功能和机理研究、分子动力学模拟和基于结构的药物开发、蛋白质结构解析的研究者都能从中受益。
龚海鹏副教授表示,对于计算化学领域和生物信息学领域的研究者来说,这项研究给出了很好的蛋白质初始结构信息,可以基于此进行分子动力学模拟以及计算机辅助药物设计等工作。研究蛋白质功能和机理的学者,也可以根据预测的结构解释实验中氨基酸残基突变对蛋白质功能的影响,有助于更深入和更准确地理解蛋白质的工作机理。目前结构解析团队用冷冻电镜法较容易建立低分辨率的电子密度图,用X射线晶体衍射法常常缺乏相位信息,这些缺陷都影响结构的解析;而该研究结果的开源,使得大部分实验室可以根据精度较低的实验数据建立较为合理的结构模型。
不过,芝加哥丰田计算技术研究所的许锦波教授指出:「AlphaFold 预测人类蛋白的覆盖率很高,达到了 98.5%,但在某些生物制药或疾病治疗领域,对蛋白质氨基酸结构精度需要达到原子级别,从这个角度看,AlphaFold 还有一定的提升空间。」
另一些研究人员也同意许教授的看法。自然资源部第三海洋研究所一名研究蛋白互作的研究人员表示,AlphaFold 是对实验结构生物学的一种补充技术,它可以加速现有的生物结构实验研究,节约数月的时间,但「预测毕竟是预测,还是需要实验证实」。
参与这项工作的 DeepMind 研究人员表示,「像AlphaFold 这样擅长理解蛋白质结构任务的网络架构的发展令人乐观,我们可以在相关问题上(预测复合物的结构、结合非蛋白质成分等)取得进展……大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而 AlphaFold 的预测结果将帮助进一步阐明蛋白质的作用。」
机器学习加速蛋白质结构预测
解析蛋白质的结构可以为理解生物学过程提供重要信息,并有望指导药物研发。考虑到理解人类蛋白质组对健康和医药的重要性,研究人员付出了大量努力来确定这些蛋白质结构。虽然开展了数十年的研究攻关,但只有 35% 的人类蛋白质映射到蛋白质数据库(PDB)条目。利用实验方法解析结构需要跨越诸多十分耗时的障碍,因此,扩大蛋白质组覆盖面仍是一项艰巨挑战。
蛋白质结构预测通过快速、大规模地提供可操作的结构假设,有助于缩小这一差距。近年来,机器学习方法的出现,让蛋白质结构预测取得了实质性进展。
2020年12月,DeepMind 团队开发的 AlphaFold2 在国际蛋白质结构预测竞赛 CASP14 击败一众选手,实现了前所未有的结构预测精度,这破解了出现50年之久的蛋白质分子折叠问题,被称作结构生物学「革命性」的突破、蛋白质研究领域的里程碑。
上周,备受瞩目的 AlphaFold2 开源,它预测的蛋白质结构能达到原子水平的准确度。鉴于此,DeepMind 将 AlphaFold 应用于人类蛋白质组结构预测。