导语
表观研究涉及的范围非常广泛,包括DNA甲基化,组蛋白修饰,RNA的可变剪切,miRNA调控,转录调控,染色质可及性分析等。表观研究受限于研究技术手段的不成熟,一直被认为是基础生命科学研究的一个难点。数十年来,各国的科学家们一直致力于在表观研究的技术上寻求突破。本文回顾总结了染色质可及性分析(chromosome accessibility)领域的技术发展过程,并将重点阐述常规样本ATAC和单细胞ATAC技术的应用。
1. 何为染色质可及性?
染色质可及性又称染色质开放程度,反映了染色质的转录活性状态,是研究基因表达调控的重要方向,在表观遗传图谱绘制、细胞分化和发育及各类疾病的发生发展研究中具有重要的作用。染色质的可及性,是指细胞核内大分子能够与染色质中DNA发生物理接触的程度,由核小体或其他染色质结合因子在染色质上的占据情况和拓扑结构决定,可以通过染色质中DNA对DNase的敏感性来评估。对染色质可及性的研究是伴随着对染色体结构研究的发展逐渐兴起的。1971年,Mirsky首先使用DNase来研究染色质的结构,发现DNase对于存在与染色中的DNA仍然可以切割,表现出染色质中的DNA对于DNase的可及性。1975年,Burkholder和Weaver研究发现DNase I对舒展状态染色质的消化速率高于对压缩状态的染色质。目前人们已经知道双螺旋的DNA与组蛋白结合后,会以染色质或染色体的形式形成高级空间结构。以人的基因组为例,每个组蛋白八聚体上缠绕有146个碱基对的DNA。连接核小体与核小体之间的DNA序列称为连接序列。活细胞中染色质的结构总是处在动态变化中,在不同类型的细胞中,或在不同的生理条件和外界刺激下,细胞核中染色中呈现不同的结构和状态。这些结构和动态变化的状态表现形式之一就是染色质可及性的变化。
2. 全基因组水平研究染色质可及性的方法
染色体上开放区域与对应转录因子或其他调控蛋白的结合直接影响细胞内基因复制和转录行为的发生。精确地在基因组上鉴定这些特定开放的DNA区域对于发掘基因组调控元件至关重要。失去了核小体保护的DNA序列,相比于缠绕在核小体上的DNA序列具有更高的活性,更容易被核酸酶、转座酶或物理化学手段切割或打断,形成长短不一的DNA片段。因此,目前研究染色质可及性主要通过酶解或者超声处理的方法对开放区域的DNA进行片段化处理。 目前研究染色质可及性的方法主要有以下四种:MNase-seq、DNase-seq、FAIRE-seq和ATAC-seq ,其中MNase-seq是通过对核小体保护的DNA测序,从而间接反映染色质可及性的方法,其他三种均为对检测染色质上的开放区域,直接反应染色质的可及性[1]。
图1. ChIP-seq、MNase-seq、DNase-seq、FAIRE-seq和ATAC-seq技术概览[1]
2.1 MNase-seq
微球菌核酸酶(Micrococal nuclease, MNase)是来源于金黄色葡萄球菌分泌的一种核酸酶,同时具备核酸外切酶和内切酶活性。从上世纪70年代开始,MNase就被应用到染色质结构的研究中。MNase优先对裸露的DNA或核小体之间起连接作用的DNA进行切割和消化,在对DNA的两条链依次进行内切后,形成双链末端,并从末端向片段的中心位置逐个切下碱基对,直到遇到核小体或DNA结合蛋白等阻滞物[2]。
图2. MNase-seq检测染色质可及性原理[2]
在MNase-seq的建库实验中,细胞的染色质预先使用甲醛固定后,再用过量MNase处理,获得单个核小体组蛋白上缠绕的DNA,最后进行二代测序分析。标准的MNase-seq主要用于对核小体片段(~147bp)的测序,限制了核小体之外非组蛋白在DNA结合位点的分析[3]。 总的来说MNase-seq是一种优秀的检测全基因组核小体分布和评估转录因子结合的方法,可用于多种类型的细胞。然而,如果要在不同实验中得到较好的可重复性和可比性,MNase-seq需要大量的细胞,并需要严格的酶解条件。
2.2 DNase-seq
脱氧核糖核酸酶I(DNase I)是一种核酸内切酶,被人的基因DNASE1编码,可以非特异性的对双链DNA进行切割。DNase I 敏感的位点在基因组学和染色质的研究中被认为是具有开放的,可接近的染色质的特征[4]。低浓度的DNase I可以切割基因组上非核小体占据的开放区域,这些区域被称为是DNase I敏感位点。鉴定DHSs的传统方法主要是末端标记的Southern Blotting, 包含多个费时费力的步骤。二代测序技术的出现,使得在全基因组上高效地,特异的鉴定DHSs成为可能。 目前,DNase已经成为检测染色质可及性的“金标准” [4]。在ENCODE联盟中,DNase广泛的应用于细胞特异性染色质可及性分析及细胞染色质可及性与基因表达的关系研究中。DHSs中转录因子的结合也会阻止DNase对DNA的切割,从而可以在单碱基水平观察到转录因子的占据情况。由于DNase I 在切割DNA时具有一定的偏好性,DNase-seq用于转录因子印记检测的分析可靠性受到了一定的质疑。同时,实验的操作需要多步的样品准备和酶滴定。对于不同的细胞类型或者细胞用量,DNase的浓度也需要做出调整[2]。
图3. DNase-seq 检测染色质可及性分析[2]
总的来说,DNase-seq在确定基因组上活性的调控元件方面表现可靠、强大,不需要其他表观遗传研究的先验性信息。但对转录因子的印记分析的可靠性需要深入研究。
2.3 FARIE-seq
甲醛辅助的调控元件的分离(Formaldehyde-Assisted Isolation of Regulatory Elements, FAIRE)是一种直接检测无核小体占据的DNA序列的方法。 其原理是,缠绕有DNA的核小体和无核小体结合的DNA,在苯酚和氯仿中的溶解度不同。缠绕有DNA的核小体分布于两相交界处,而无核小体的DNA分布于亲水相中。在ENCODE工程中,FAIRE-seq被广泛的应用于鉴定人源的不同细胞系中活化的调控元件和用于比较正常细胞和疾病状态下的细胞中染色体的可及性差异。 总的来说,FAIRE直接富集了活化染色质的区域,可直接应用于任何类型的细胞或组织,对细胞的起始状态无要求。此外,FAIRE克服了MNase和DNase I切割DNA的序列偏好性。但是,成功FAIRE-seq对于甲醛的固定效率具有很高的依赖性。FAIRE-seq相比于其他染色质可及性分析手段最主要的问题是信噪比过低,过高的背景信号对数据的分析解读产生非常大的干扰[5]。
2.4 ATAC-seq
ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)是2013年由美国的Stanford大学William Greenleaf开发的检测开放染色质的方法,主要依赖于Tn5转座酶对片段化DNA和整合入活化的调控区域的高敏感性[6]。
图4. ATAC反应原理图[6]
转座子本质上是一段可移动的DNA片段,该片段在基因组中可不必借助于DNA同源系列就可移动。细菌转座子大概分为插入序列、可转移噬菌体复合转座子以及TnA转座子家族等不同类型。Tn5是一种最早在E.coli中发现的细菌转座子,是一段含有若干抗性基因和编码转座酶基因的DNA片段,属于复合转座子的一种。Tn5序列全长5,818bp,由编码博来霉素、链霉素和新霉素的核心序列以及两条倒置的IS50序列组成。两条倒置的IS50序列同源性很高。在IS50中,存在19bp的外末端OE和内末端IE两个倒置末端。研究发现,此倒置末端是转座过程中发挥重要作用转座酶的作用位点。右侧插入序列IS50R能够编码53kDa的Tn5转座酶,同时还可以编码一个48kDa的转座阻遏蛋白Inh。Tn5转座子是IS4家族的转座子,IS4家族划分为几个亚组,其中IS50所在亚组含有19种转座元件。Tn5转座酶识别DNA片段两侧19bp的ME(mosaic end)序列。转座事件发生时,两个转座酶(Tnp)分子结合到Tn5转座子的OE末端,形成两个Tnp-OE复合体,随后两个复合体通过Tnp的C末端相互作用进行联会,形成Tn5转座复合体,此时Tnp产生切割DNA的活性[7]。在ATAC-seq中,500~50,000个未固定的细胞核被Tn5转座酶标记上测序接头。由于核小体的空间位阻效应,Tn5转座酶携带测序接头主要插入整合到染色质的开放区域,经PCR扩增后,进行双端二代测序。 ATAC-seq建库过程简单快捷,所需细胞数目少,而且可以在很高的分辨率下解释染色质结构。同时,建库过程也不包含任何的片段长度筛选,可以同时检测开放的DNA区域和被核小体占据的区域。 据悉,我国伯豪生物自主研发的临床样本保存液完美实现样本处理后任何时间、从任何地点寄送至实验室;累计制备30余种组织类型的单细胞样本,细胞活力平均90%以上。
图5. ATAC-seq 步骤路线图[7]
图6. ATAC数据分析pipeline[7]
3. 四种分析染色质可及性的实验手段比较
表1. 上述4种染色质可及性分析方法总结
表2. 上述4种染色质可及性分析方法优缺点比较
4. ATAC-seq技术在肿瘤研究中的应用
前列腺癌是全球范围内第二常见的癌症,仅2018年全世界就有约2000万新发病例和1000万死亡病例。转录因子FOXA1(forkhead box A1)在前列腺癌样本中高度突变或异常表达。然而,FOXA1对前列腺癌发生发展的具体作用机制迄今为止还未得到深入剖析[8]。2019年,美国纪念斯隆·凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)和威尔·康奈尔医学院(Weill Cornell Medicine)的多个课题组以及密西根大学的 Arul M. Chinnaiyan课题组背靠背在Nature发表了类似的研究结果,共同报道了关键转录因子FOXA1在促前列腺癌发生中的作用机制。由于FOXA1是一个先驱转录因子(pioneer tranion factor),可能具有在调控染色质可接近性方面的角色。为了探究FOXA1改变染色质可接近性影响前列腺癌细胞状态的可能性,作者对多个FOXA1过表达细胞系进行了ATAC-seq测序,结果发现野生型及两种FOXA1突变体均显著增加染色质开放位点。基于染色质位点开放程度的聚类分析指出野生型和突变型FOXA1在对具体位点的影响上有很大的差异,表明不同的突变位点对FOXA1的调控角色具有显著不同的影响[8]。2018年,来自斯坦福大学多部门的研究人员联合在Science上发表了人类原发性癌症的染色质可及性图谱。通过TCGA的410个肿瘤样本中生成了高质量的ATAC-seq数据,确定了23种癌症类型的不同监管环境,极大的拓展了人类已知的DNA顺式调控元件库。 通过整合ATAC-seq和TCGA多组学的数据鉴定了大量可以用来区分肿瘤分子亚型的增强子,揭示了基因组上大范围的基因和调节者的互作。这些数据揭示了癌症中作为活跃的DNA调控元件的易感性遗传风险基因位点,确定了癌症免疫逃逸的基础基因调控相互作用,并指出非编码突变驱动增强子激活并可能影响患者生存[9]。
图7. ATAC-seq 峰值与基因的生物信息学关联分析[9]
5. ATAC与在胚胎发育和免疫系统疾病中的应用
2018年, 郑州大学第一附属医院徐家伟 等在 Nature杂志 上发表了题为“Chromatin analysis in human early development reveals epigenetic transition during ZGA”的文章, 首次采用ATAC-seq技术揭示人类胚胎合子基因组激活(ZGA)前存在广泛的染色质开放区域,并阐明其在胚胎发育过程的重编程模式,阐述了胚胎基因组转录激活对于开放染色质区域重编程的必要性[10]。
图8. 人类早期胚胎染色质可及性图谱。A. UCSC浏览器展示ATAC-seq数据标签;B. UCSC浏览器展示具有代表性的ATAC-seq数据和热图展示其附近的基因表达[10]
2018年,来自斯坦福大学的表观遗传学者张元豪等将TCR编码基因的测序与染色质可及性分析(ATAC-seq)在单细胞水平相结合,分析测定来自同一个体的T细胞的TCR特异性和表观基因组状态的信息[11]。 通过使用这种称为转录索引ATAC-seq(T-ATAC-seq)的方法,研究人员鉴定了永生化白血病T细胞,健康志愿者的原代人T细胞和来自患者样品的原代白血病T细胞的表观基因组特征。 2017年,中国科学技术大学瞿昆教授等利用ATAC-seq技术,首次揭示了T细胞淋巴瘤(CTCL)的表观遗传调控机制。 作者分析了111个人皮肤T细胞淋巴瘤患者和对照样本,揭示了大量的可以用于区别白血病,宿主和正常 CD4+ T细胞的染色质标签[12]。
6. 单细胞 ATAC-seq技术
6.1 单细胞 ATAC-seq技术的发展
以往科学家们的大部分研究是在群体细胞中探寻染色质开放的平均特征,2015年4月,Science发表了Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing [13]的文章。同年7月,Nature发表了Single-cell chromatin accessibility reveals principles of regulatory variation [14]的文章。 这两篇论文先后提出利用单细胞ATAC-seq技术对染色质可及性进行检测,探索细胞转录调控机制,解决了以往存在的细胞异质性难题,成为ATAC-seq技术的一大突破。 其中,后者将ATAC-seq与Fluidigm C1单细胞平台整合,利用微流控芯片完成捕获、裂解、转座、PCR等实验过程,建立了自动化的单细胞染色质可及性图谱研究方法。
图9. ATAC-seq与Fluidigm C1单细胞平台整合的实验流程[14]
作者首先对254个类淋巴母细胞进行了单细胞ATAC测序,将这些单细胞数据合并分析后得到的结果与群体细胞DNase-seq或ATAC-seq获得的染色质可及性图谱具有很高的相关性,单细胞水平的数据再现了一些群体细胞ATAC-seq数据反映出的染色质特征。
图10. 单细胞ATAC-seq与常规ATAC-seq的一致性[14]
为了进一步验证方法的可靠性,作者又用scATAC-seq的方法对ENCODE细胞系,包括H1人类胚胎干细胞、K562慢性粒细胞性白血病细胞、GM12878类淋巴母细胞、V6.5小鼠胚胎干细胞、EML1细胞(小鼠造血祖细胞)、TF-1细胞(人类成红细胞)、HL-60 cells (人类 promyeloblasts)和BJ成纤维细胞HL-60 细胞进行了分析。结果发现在增殖细胞中,复制时序结构域(replication timing domains)的染色质可及性的变异性增加。同时,作者还发现不同的转录因子可以通过协同或者竞争性结合的作用促进或者抑制染色质可及性的可变性。通过此方法对作者对大量转录因子的ChIP-seq数据研究绘制出了转录因子协同作用改变染色质可接近性的图谱。此外,还发现与高可变性相关的转录因子的是细胞类型特异的,在单细胞中染色质状态与组蛋白修饰也与染色质可接近性变化相关。
图11. 转录因子通过协同或者竞争性结合作用促进或者抑制染色质可及性的可变性[14]
2018年10月,10X Genomics单细胞ATAC-seq解决方案正式推出,该技术基于10X Genomics Chromium平台,可用于绘制细胞染色质开放区的单细胞图谱,是一种单细胞水平研究表观遗传学的有效手段。
图12. 10X Genomics scATAC-seq的原理
6.2 10X Genomics单细胞ATAC-seq的实验流程
首先利用转座酶孵育细胞核,转座酶进入细胞核,在染色质的开放区域片段化DNA,同时加上测序接头;
其次利用微流控系统将带有条形码的凝胶珠和单个细胞核包裹在油滴中;
每个油滴内凝胶珠溶解,细胞核破裂释放片段化的DNA,与barcodes序列连接;
最后油层破裂,DNA片段释放出来,进行后续的Illumina文库构建和测序。
6.3 10X Genomics单细胞ATAC-seq的优势
检测单个细胞中的开放染色质区域;
通道微流控系统可供8个样本同时上机,每个通道可分析500-10000个细胞核;
细胞核捕获率>65%;
可用于细胞系、原代细胞、新鲜组织和冻存组织来源的细胞;
数据可用Cell Ranger、Seurat等软件进行分析和可视化;
同一份样本可实现单细胞ATAC、mRNA、TCR/BCR同时测序,并整合数据。
图13. 一份样本同时进行scATAC-seq与scRNA-seq
图14. 基于scATAC-seq的细胞分群及marker基因表达
图15. scATAC-seq与bulk ATAC-seq的一致性及细胞间异质性
图16. 通过scATAC-seq获得细胞特异性的染色质可及性图谱
图17. scATAC-seq与scRNA-seq的联合分析
6.4 单细胞ATAC-seq解决的科学问题
在单细胞水平揭示细胞核内染色质可及性;
揭示染色质可及性在细胞间的异质性;
鉴定细胞特异性的染色质活性区域;
预测转录因子结合位点,研究转录调控网络。
6.5 单细胞ATAC-seq的应用方向
6.5.1 干细胞分化
造血分化是从造血干细胞分化为具有不同功能的细胞过程。造血分化过程是一个复杂、多阶段的,受多种因子调控的过程,单细胞组学技术有助于解析造血干细胞转录和细胞命运异质性的顺式和反式调节机制。2018年,斯坦福大学的研究团队从健康人捐赠的骨髓中分选单个细胞进行scATAC-seq [15],获得了造血系统10个细胞类型的染色质可及性图谱,构建了人类造血染色质可及性景观图来表征分化轨迹。作者利用ChromVAR鉴定不同细胞的TF motif,发现了造血分化中主要的调控因子GATA1, BATF, CEBPB等。采用多种聚类方法对数据进行降维聚类分析,观察到髓系共同祖细胞(commonmyeloid progenitors,CMP)和粒细-巨噬细胞祖细胞(granulocyte-macrophage progenitors ,GMPs)的异质性,并绘制了各个谱系细胞分化连续轨迹。此外本研究整合了scATAC-seq 和 scRNAseq数据 ,将髓系分化基因的动态表达映射到染色质的动态变化,并且发现了已知的髓系分化调节因子的表达模式。将转录因子表达与转录因子motif对比,共发现了14,005个顺式调控元件,这些调控元件随着染色质开放状态的变化也呈现显著的异质性。总的来说,这项工作为在单细胞分辨率下对人类原代组织复杂的调节动力学进行综合研究提供了一个框架。
图18. 联合scATAC-seq与scRNA-seq研究造血分化[15]
6.5.2 肿瘤异质性
乳腺癌具有高度异质性,至少可分为六种不同的固有亚型,即luminal A、luminal B、HER2-enriched、basal-like、normal breast和 claudin-low。乳腺癌起源于乳腺上皮,人类和小鼠中的乳腺上皮,由两个主要的细胞分层构成导管上皮网络,分别是内层管腔细胞和外层基底/肌上皮细胞。一系列最近的研究表明,在小鼠的这两个细胞层中存在进一步的异质性。本研究应用单细胞转录组测序(scRNA-seq)和单细胞染色质可及性测序(scATAC-seq)对分离的乳腺上皮细胞(mammary epithelial cell,MECs)进行分析[16],重建了小鼠MEC系统的细胞类型及其潜在的基因调控特征。并且在管腔细胞的分泌类型中定义了新的分化状态,将管腔细胞分为祖细胞和成熟分泌细胞簇。通过整合scRNA-seq和ATAC-seq,确定了在特定上皮细胞类型以及新定义的管腔分化状态中差异激活的cis和trans调节元件。这项工作提供了一个重要资源来揭示与MEC身份和分化相关的调节元件,这将为确定乳腺癌中染色质可及性的变化提供有价值的参考。
图19. scATAC-seq与scRNA-seq整合分析
6.5.3 免疫学
最近美国斯坦福大学的研究团队利用10x Genomics单细胞ATAC-seq技术,绘制了来自血液、基底细胞癌组织的200,000多个单细胞的染色质可及性图谱[17]。文章对来源于16个健康人外周血及骨髓细胞的63,882个细胞核样本进行单细胞ATAC测序分析,基于染色质开放程度,鉴定出31个细胞亚群,并深入探索了免疫细胞谱系的调控轨迹。此外,研究团队还对PD-1治疗前后采集的基底细胞癌患者的原发性肿瘤样本进行了检测,通过分析37,818个细胞的ATAC-seq数据,发现来源于不同患者的基质细胞、免疫细胞基本聚到一起,而肿瘤细胞的分群则表现出显著的异质性。在PD-1免疫治疗后,对治疗有相应的患者中出现两种T细胞亚群(耗竭性CD8+T细胞和CD4+滤泡辅助T细胞)的扩张,且比例相当,暗示这两种细胞类型在PD-1阻断后,其分化过程可能处于一致的调控模式。
图20. 肿瘤细胞的的异质性及PD-1治疗前后细胞亚群的改变[17]
6.5.4 神经科学
利用单细胞ATAC-seq技术对成年雄性小鼠13个组织的单细胞染色质可及性进行了分析[18]。 结果共鉴定出85个亚群和40万种调控元件。 将单细胞染色质可及性与单细胞转录组比较分析,发现两种方法注释的细胞类型表现出高度一致性。 为了研究神经元细胞中染色质可及性的异质性,对前额叶皮质细胞的数据进行分析,结果发现,兴奋性神经元和中间神经元明显地与神经胶质细胞、小胶质细胞和内皮细胞分离。 并且在兴奋性神经元内仍存在显著的异质性,可能反映了前额叶皮质不同层中的表达和甲基化差异。
图21. 前额叶皮质细胞中染色质可及性的异质性[18]
结语
综上所述,ATAC目前已经成为主流的检测染色质可及性的技术,可以用比较少的细胞,甚至在单细胞水平分析特定时空下的开放染色质。ATAC-seq技术在肿瘤,胚胎发育和免疫性疾病中有着越来越广泛的应用,可以预见该技术将为科学工作者了解生命活动中染色质的动态变化,下游基因的转录调节等方面提供强有力的技术支撑。