2015年4月,中山大学生命科学学院副教授黄军就及其同事完成了全球首次对人类胚胎进行的遗传性致病基因的修复实验。新华社发
“我是谁?我从哪里来?要到哪里去?”面对这个终极哲学难题,人们或许能从科学家的发现中找到遗传规律与基因信息层面的解答。
前不久,《科学》杂志连发6篇论文,公布了人类基因组测序的最新重要成果。国际科学团队端粒到端粒(T2T)联盟,通过新的技术绘制出全球第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。这是人类第一次完成每个核苷酸水平堪称完整的人类基因组测序,为了解人类基因组的全部基因和组织元件提供了完整的参照,为科学、全面、彻底认知人类的个体和群体演变的遗传学本质和规律铺平了道路。
“人类基因组计划”解码生命奥秘
“人类基因组计划”是继“曼哈顿计划”和“阿波罗登月计划”之后,又一项规模宏大、跨越国界及学科的科学探索工程。
该计划为什么如此重要?首先要来认识一下什么是基因。
石家庄学院化工学院教授马闻师介绍,绝大多数生命的遗传物质为DNA,位于细胞核内的染色体上。DNA由两条脱氧核糖核酸链盘旋互补构成,而核酸链则是由四种特定的脱氧核苷酸按特定顺序连接而成。其中脱氧核苷酸由碱基、脱氧核糖和磷酸构成。腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)这四种碱基则是生命语音的四个基本字母。基因就是DNA分子上携带遗传信息的一个基本单元,一段段间隔串联在长长的核酸链上。一个细胞中所有DNA的序列总和蕴含着这个生命的所有信息,即是这一生命的基因组。
人类的基因组究竟有多复杂?
据介绍,不考虑线粒体内的基因组,仅看细胞核内,一套完整的基因组DNA有3×10^9bp(base pair)——即30亿个碱基对,如果把DNA的双链拆散连起来,每个细胞中的DNA将接近两米长。而特定长度的DNA在信息表达中还存在进一步拼装组合的可能,由此对应着生命万象纷纭的表现。
除了数量庞大之外,基因组还异常复杂。
“人类生出的后代仍是人类,并且子女还经常展现出和父母比较相像的性状,这是因为基因是能够影响生物体表型的遗传单位。”马闻师说,这种遗传之所以能存在,是因为DNA可以经过转录生成mRNA,进而翻译生成蛋白质。DNA通过这样的路径作为模板生成各种有功能的蛋白质来发挥具体作用。在实际情况中,还有大量的DNA转录生成RNA之后并不进行翻译,也不生成蛋白质,他们被称为“非编码基因”,其中存在着大量的重复序列。
既然基因组如此庞杂,为什么要对它进行测序?一个简单的回答是,为了研究生命现象和治疗疾病。
“基因能够决定人类身体的健康程度,了解从父母那继承来的DNA是否有某些疾病的易感性,或许可以对疾病进行预防。”马闻师说,完整的人类基因组序列就像是一本“信息对照表”,只有先清晰地知道“天书”的文字全貌,才能进一步破译每一段内容对应何种生命的玄机。
在过去的20多年里,科学家们一直在努力追求完美,几乎每年都在更新人类基因组参照序列。
1985年,人类基因组计划由美国科学家率先提出,于1990年正式启动。该计划的宗旨在于测定组成人类单倍染色体DNA中所包含的30亿个由A、T、C、G碱基组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
为了完成“人类基因组计划”的任务,科学家首先需要将人类23对完整DNA切割成数百万甚至数千万个核苷酸序列碎片,并对碎片进行单独测序,之后再根据碎片之间的重叠部分重新拼接,形成逐渐完整的“重叠群”。
2001年,科学家首次发表人类基因组草图,宣布破译人类的“生命天书”。不过,由于彼时所测的序列中仍有8%的“空白”间隙,因此这部“天书”尚有遗漏之处。
“生命天书”为何遗漏8%
人类基因组图谱最终缺失大概8%的序列,只能用字母“N”进行代替,还有169段重要的重复序列没有能够成功拼接,还有一部分难以拼接的序列没有分析和组装,包括染色体两端的端粒、中间的着丝粒有很多常染色质区域没有成功解析。
这8%的缺失,源于测序技术的限制。
当时使用的测序方法是短读长测序技术,一次只能读取很短的一段基因序列。马闻师打了个比方:如果把基因组的一部分比作段落中的一句话,比如“我今天去学校上课”,通过短读长测序,研究者能得到很多简短的小部件,比如“我”“今天”“去”“学校”“上课”,再经过“拼图”式的分析,科学家就可以拼凑出这句完整的话。
然而,科学家虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“我今天去学校上课”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。
正因缺少这些信息,在过去的研究里,重复序列一直是基因组学研究的一大难题。
受益于过去十年长读长测序技术的发展,也被称为第三代或第四代测序技术,人类基因组学研究迎来了转折点。
“长读长测序技术突破了短读长测序技术的限制,可以一次性读取长达10000—100000个碱基的DNA系列,最长的读长可达200万个碱基以上,辅助以人工智能算法等技术进步,可读取人类基因组中绝大多数重复序列,从而完成人类基因组最后的拼图。”专家说。
通过这种技术,T2T联盟于近日宣布他们完成最新人类参考基因组T2T-CHM13,填补了过去缺失的空白,揭开了从端粒到端粒真正完整的人类基因组序列。
新人类基因组序列为什么命名为T2T-CHM13?
这是因为来自T2T联盟的科研人员从CHM13的细胞系里读取到了DNA。“这个细胞系来自一个完全的人类细胞葡萄胎,也就是当一个精子和一个没有细胞核的卵子结合后,在人体内形成的一个组织,这个细胞可以在实验室中培养。”专家说。
为什么使用CHM13?因为这个基因组只有精子的一半,被称为单倍体或单倍型的基因组,这就解决了父亲、母亲基因组交叉组装错误的难题。美中不足的是,由于测序样本是来自单倍体衍生的细胞株,T2T-CHM13没有Y染色体序列,科学家将在后续解决这一问题。
最终,新测序结果得到的序列一共是30.55亿对碱基,在过去基础上增加了约2亿个碱基对和2000多个新基因,也纠正了过去基因组的一些错误。
众多科学家们都在感叹,这次的成果虽然不是“从0到1”的突破,但也是在“1到100”的路上又迈出了一大步。“个体测序项目短时间内也许无法实现,但科学家们会继续努力,希望在未来能实现个体基因测序,为人类提供精准、前置的健康指导。”
治疗癌症和其他疾病的新希望
新人类基因组序列是否会给癌症,以及更多的疾病治疗带来福音,挽救更多人的性命呢?答案是肯定的。
新人类基因组序列的大部分新内容来自神秘的着丝粒,它是将两条染色体连接在一起的密集的DNA束,在细胞分裂中起着关键作用。参与这项工作的美国加利福尼亚大学伯克利分校博士后阿尔特莫斯指出,约90%的基因新序列来自染色体的着丝粒,着丝粒内部及周围的新DNA序列约占整个基因组的6.2%。
着丝粒的作用在于,它的大型蛋白质复合物牢牢抓住染色体,如此细胞核内的其他组织就可以将染色体对分开。但是,一旦这一过程出错,染色体分离也会出错,随后一系列后果也会出现。如果这种情况在细胞的减数分裂时发生,可能会发生染色体异常,导致自然流产或先天性疾病。而且,如果这种情况发生在体细胞中,可能会导致癌症。
显然,对着丝粒及其周围碱基对序列的精准检测,以及对其他原癌基因的研究,是未来预防和治疗癌症的基础,治疗癌症的药物和疗法也必然建立在这些基础之上,因此更多的癌症病人和其他疾病患者都会得益于新人类基因组序列。
另一方面,对5条近着丝粒染色体的短臂区域的测序结果显示,这些短臂区域中包含了编码核糖体RNA的基因的多个拷贝,一共400个。染色体短臂区域的变异水平也比较高,并有大量的重复序列。这表明,短臂区域很可能是基因演化的热点区域,因为停留在那里的基因拷贝可以自由变异并获得新的功能。因此,研究这一区域的基因既可能发现很多功能基因,也能进一步解开癌症和其他疾病的谜团。
很多专家认为,完成某一个人类个体的基因组并不是“人类基因组计划”的最终目标和结果。
目前,T2T联盟已与人类泛基因组参考联盟合作,计划对几百个个体进行T2T的全基因组测序,以建立来自世界各地,代表不同人群的数百乃至上千个完整的群体参照基因组,建立尽可能完整的代表人类群体多样性的系列参照基因组。
据介绍,基因测序是基因编辑的基础。2015年4月,中山大学生命科学学院副教授黄军就及其同事完成了全球首次对人类胚胎进行的遗传性致病基因的修复实验,引发全球科学界和社会的关注。
在实验中,黄军就及其同事成功修复了人类胚胎中导致β型地中海贫血的基因。黄军就在公开报道中表示,人类的很多疾病与基因遗传突变有关,比如地中海贫血、遗传性眼疾、癌症、老年痴呆症等。运用基因编辑技术,人类未来可以“修正”突变的基因,根治这些疾病。
“目前人类对很多致命疾病的药物治疗都只是在抑制病变、延缓恶化。未来,基因编辑技术将改变这一局面,为人类找到战胜疾病的全新路径。”马闻师说。(河北日报记者王璐丹)