机器之心报道
机器之心编辑部
借助 Colab,你可以在线使用 AlphaFold 的一个简化版本。
前段时间,《自然》杂志刊登了 DeepMind 的两篇论文,介绍了该公司在蛋白质结构预测方向的最新进展。研究表明,DeepMind 的 AlphaFold 所预测的蛋白质结构已经能达到原子水平的准确率。与此同时,他们还在 GitHub 上公开了 AlphaFold 的源代码。
然而,有些研究者抱怨说数据文件太大了(2.2TB)。于是,在几个小时之内,一些敬业的研究者就创造出了一个 Google Colab notebook。借助这一工具,任何一个拥有免费谷歌账号的人都可以在自己感兴趣的蛋白质上运行略微简化的 AlphaFold 2,甚至不需要下载数据,也不需要任何特殊硬件。所有的计算都是在云上进行的,而且是在一个免费的 colab 空间内进行的,这让用户能够对运行进行微调。这是加速技术大众化最好的方法之一。
开放的 AlphaFold 将分子生物学研究带入新时代
2020 年 12 月,AlphaFold2 在国际蛋白质结构预测竞赛 CASP14 击败一众选手,实现了前所未有的结构预测精度,这破解了出现 50 年之久的蛋白质分子折叠问题,被称作结构生物学「革命性」的突破、蛋白质研究领域的里程碑。
但成功之后,批评和质疑也随之而来,这些声音包括:「学术界无法与这样的巨头竞争」「他们做的很好,但我们不能用」「他们肯定不会把它开放给别人使用」。
但 DeepMind 最近的举动回应了这些担忧,他们不仅开源了 AlphaFold 的代码,还提供了一个 Colab pipeline。有个这个东西,你甚至可以通过手机使用简化版 AlphaFold 2。
如下面两位研究者所说,Colab notebooks 可以完成从加载库、输入蛋白质序列到构建蛋白质序列对齐等一系列任务。在结果展示界面,你可以在浏览器中看到 5 个 3D 模型,以及根据序列估算的 LDDT 分数。此外,原则上你还可以 fork 这些 notebook 并自行编辑,使其适用于更具体的任务。
不过,Colab 版本的 AlphaFold 2 经过了一些简化,没有模板(同源结构),而且只用了 BFD 序列数据库的一部分。开发者表示,他们已经在数千个最近的 PDB 结构上验证了简化版和完整版的差异,虽然在许多目标上,Colab 版本的准确度与完整的 AlphaFold 系统几乎相同,但由于 MSA(多序列比对)较小和模板的缺失,一小部分目标的准确度出现了显著下降。如果你想得到更加可靠的结果,建议使用完整的开源 AlphaFold 或 AlphaFold 蛋白质结构数据库。
在洛桑联邦理工学院研究结构生物学、分子建模等方向的博士后 Luciano Abriata 表示,他已经用这些 notebook 做了一些测试,而且已经得出了一些结论。最重要的是序列对齐等功能对于获得更好的模型大有帮助。Abriata 还发现,很多人在使用这个工具时都忽略了 LDDT 估计图,但其实这些图非常关键。
AlphaFold 的开放使用给全世界的研究者都带来了便利。对于那些难以用实验测定结构的蛋白质来说,通过这种方式建立蛋白质模型至关重要。即使你有一些无法适当使用的数据,拥有一个优秀的蛋白质模型也是有帮助的。
随着 DeepMind 所涉足的生物学领域愈加广泛(目前还没有计划公布,但可以猜测他们可能进军蛋白质间的相互作用以及下一步的小分子设计),更多的学者将从 AF2 的应用和所有公开的知识中获利。
长期以来,生物学领域的研究一直依赖计算机和传统软件。而如今,生物学已经进入了 AI 时代。