近日,北京大学定量生物中心钱珑/欧阳颀团队在国际知名学术刊物《尖端科学》上发布的一篇论文引发了网友热议,论文中称研究人员将一篇容量约5KB文章存储到了细菌的DNA中,从而将细菌变成了“移动硬盘”。
为何选择细菌作为信息的载体?是否会存在生物安全风险?日前,北京青年报记者联系到该论文的其中一位通讯作者钱珑,她表示,DNA数据储存技术已有多年的发展历史,但此次是国内首次利用细菌来承载储存数据的DNA。研究人员此次使用的是一种不会导致疾病的细菌,再加上其他的技术手段,可以确保实验对人类的安全性。
如何变身“移动硬盘”?
将字符串记录在DNA碱基对上
北京大学官方网站显示,上述论文的两名通讯作者中,欧阳颀为中国科学院院士、北京大学物理学院讲座教授、北京大学定量生物学中心副主任。另一名通讯作者钱珑为北京大学定量生物学中心助理研究员。
钱珑介绍说,DNA是生物体正常运作必不可少的一类物质,存在于各种生命体的细胞之中。如果不作改造,DNA携带的是生命延续和生物运作必需的遗传信息。从结构上讲,DNA像条链子一样,是由碱基对组成的序列,每一个位置上都有四种可能性,像“结绳记事”那样由前到后记录了遗传信息。DNA这条链子越长,承载的信息就越多。
在计算机领域,无论汉字、英文还是数字符号,抑或是一张图像、一支音乐或一部电影,它在计算机中保存时,都可以按照全球通用的编译规则转化为“1”和“0”两种数字的字符串。这个转化的过程称为“编码”。硬盘里储存着大量这样由“1”和“0”组成的字符串。在打开图片或文档时,计算机要执行读取数据的过程,“1”和“0”的字符串又要经过“解码”,呈现为感官接触的图片、文字或音乐等。而DNA数字存储,就是把原本记录在计算机硬盘上的“1”和“0”的字符串,改为记录在DNA的碱基对上,不同的碱基对应不同的字符串。
这样,我们人类可读的信息就转化成DNA的序列。在需要读取数据时,就从试管中提取出DNA分子,对DNA的序列进行读取,“解码”为平时使用的数据。
信息如何读取?
所用仪器比手机还小
钱珑表示,在DNA数据存储方面,科研人员已经努力了10年左右。在过去十年,主流的DNA数据存储方式是“DNA池”:把DNA分子做成溶液保存在试管里,这就可以称为一个DNA池。一个DNA分子能承载200比特左右的信息,而一支小小的试管里,能保存大量的DNA分子。估计下来,一毫升的DNA溶液里可以保存的数据相当于2000多个2TB移动硬盘的内容。但这种“DNA池”的存储方式也有弊端。读取这些DNA时需要专用的仪器,普通家庭一定不会购置。所以,“DNA池”中信息的读取需要专业设备和技术,不能像手机里的数据那样即写即读。因此,这种“DNA池”模式适用于比较大的数据库或数据中心,但无法满足少量、频繁、日常的数据存储。
“我们现在是把数据保存在细菌的DNA里,然后对细菌进行培养。”钱珑介绍,细菌是一个生命系统,细胞中的各类结构相互协调,能够维持DNA结构的稳定存在,一个DNA链就能变得更长,能存储更多信息。所以,一个DNA分子上就能承载更多的信息,比如这次就是把大约5KB的信息储存在了细菌的DNA里。
传统的模式在信息读写方面都需要比较大的专业仪器,这是因为它们的数据是由大量短链片段组成的,相比之下细菌的DNA链条更长,就可以用更小巧的测序仪进行解读,其大小比手机还小,需要的时候取出一点细菌液,经过简单处理就可以读取出数据。
“细菌作为一种生物,还可以通过自我复制进行增殖,我们可以直接利用细菌自身的繁殖能力,让承载着信息的DNA随着细菌的增殖而复制。细菌自己不断复制的同时,我们的信息就能不断保留下去。”钱珑说。
是否存在安全风险?
使用的是非致病细菌
有网友担心,在编辑细菌的DNA用来保存信息的时候,是否会产生对人有伤害的“超级细菌”?对此,钱珑表示,生物安全是全社会非常关心的问题。“我们在编码的时候会使用算法,并且和全世界的基因库进行对比,保证这一段信息之中不会出现与生物本身的编码基因相同的片段。这就意味着,我们用于编码信息的DNA不太可能表达出任何生物体本身的性状。也就是说,我们导入的信息对于细菌来说是没有任何意义的,其意义只是能承载人类才能读取的信息。可以说,我们编辑的信息几乎不会干扰细菌本身的生理特性和生物功能。这是我们最基本的要求。”
钱珑说,“未来在技术上我们还可以在细菌的DNA里添加一些基因,确保细菌离开特定环境的时候就会自行死亡。类似这样学界公认的生物安全操作手段,可以被应用到这个系统里。我们使用的细菌是一种在极端环境的盐湖里找到的微生物,并不是能够导致疾病的细菌。这种细菌在人类生活的环境下生长比较缓慢,这使得它的营养会很快被别的细菌夺走,难以继续生存。总之,这个实验是非常安全的。”
DNA存储数据有何优势?
存储效率是传统硬盘的1000万倍
钱珑表示,DNA的存储密度特别高。以硬盘存储为例,它的精度是纳米级别,但几纳米的尺度上只能记录一个“1”或一个“0”。此外,传统的硬盘、光盘等存储设备不是百分百的结构都用来存储数据,它还要散热结构等来挤占空间;与之相比,DNA存储的密度在理论上可以是传统的硬盘存储效率的1000万倍。
DNA的保存时间比较长。例如一些化石中提取出的DNA,虽然已经成为碎片,但通过一些技术手段,仍然能够提供大量的信息。它的寿命远远超过现在的存储介质,有的硬盘放置十几年,可能就无法读取数据了,它的硬件是会随着时间损耗的。相比之下,DNA的保存时间是非常长的。
DNA的存储和读取不需要什么能量。虽然合成DNA和为DNA测序的过程需要特定装置耗电,但如果只是长期保存,可以直接在常温环境下保存,连冰箱冷藏都不需要。所以它的保存几乎是没有能耗的。现在的数据库、数据中心都要用硬盘存储数据,这些硬盘是需要通电保持的;而且它平时也会放热,需要降温装置,降温也需要很大的能耗。
此外,DNA的体积低。DNA是一个纳米级的分子,比如大医院的病例数据,如果专门建造一个数据库进行储存,它的资金消耗可能是千万元到亿元级别,需要一个大型空间和专业设施来承载硬盘及其他存储设施。但一屋子的硬盘存储的数据,用DNA来储存可能就是手里的一捧试管。“这个对比就是很明显的。基于这种考虑,科学家开始思考用DNA作为存储数据的工具。”钱珑介绍。
对话
北青报:为什么要用DNA这种生命体内的遗传物质来存储数据?
钱珑:我们正身处一个大数据时代,也许普通人会觉得自己手中的数据没有多少,但在整个社会中,数据的积累已经到了很大的程度。一个U盘可以承载几个GB的文件。日常使用的存储介质中容量最大的可能就是硬盘,有的硬盘存储容量能达到1个TB,相当于1024个GB。
但社会上采集的各类数据要大得多,比如,一个天文台每天产生的数据是以PB为单位的,一个PB的文件量就能装满1024个容量为1TB的移动硬盘了。这样日复一日积累下去,就是一个名副其实的“天文数字”。许多数据现在虽然采集了,但长年用不上,只是需要存档,不能删除。现在我们的解决方法是将这些数据存放在数据中心,但数据中心需要耗电维护,降低数据丢失的风险。这种情况下一年消耗的电量是极大的。
另外,现在我们的硬盘使用的材料主要由硅元素构成。但是,地球上每年能开采的硅资源是有限的,无法承担未来海量数据的存储。所以,我们要为未来寻找资源再生的、密度高的、存放时间长的新型材料。
北青报:储存在细菌DNA里的5KB信息包含了什么内容?
钱珑:我们导入的数据是弗朗西斯·克里克和詹姆斯·沃森在1953年发表的DNA双螺旋结构论文,这篇论文首次揭示了DNA的双螺旋结构,在这一研究领域具有巨大的历史意义。论文转成数据以后有5KB大小。将这篇有划时代意义的论文保存在细菌里的想法是我们团队的欧阳颀教授提出的。
北青报:这项技术多久能走进普通人的日常生活?
钱珑:应该说,现在我们存储和读取DNA中的数据所需要的成本还比较高,但随着技术的进步,这些成本很可能会逐渐降下来。
未来,如果DNA成为重要的数据介质,DNA池存储和细菌基因组存储两种方式各有不同的特性,两者可以互补。它们之间就像大数据中心和普通人手中的U盘,用途不同、形式也不同。未来一段时间,像细菌基因组存储这样的便携式、功能性存储系统或许会是重点发展的方向。当然,这样一个技术路线的打通需要每个节点的进步,也就意味着需要全球各个学科领域的科研工作者共同努力。