基因组中的串联重复序列(tandem DNA repeats, TR)已知与50多种遗传性疾病有关,例如亨廷顿舞蹈症和脆性X染色体综合征。但用短读长DNA测序方法识别较大的TR比较困难,因为TR在基因组中无处不在,而且许多TR大于典型的测序读长,因此无法唯一地映射到参考基因组。目前常规的基因组技术无法检测到许多大的TR,虽然它们对单基因遗传性疾病很重要;此外,在复杂的人类遗传疾病中,如癌症,反复重复扩增(recurrent repeat expansions, rRE)的频率和功能尚不清楚。
近期,新开发的生物信息学工具可用于识别短读长全基因组测序(WGS)数据集中的rRE序列,从而识别出与人类疾病相关的重复扩增。但目前大多数相关研究都局限于神经退行性疾病或不涉及癌症的神经系统疾病,对全基因组中TR重复扩增的系统研究尚未在癌症中进行。
美国斯坦福大学等单位的联合研究团队在国际顶尖期刊Nature发表了题为“Recurrent repeat expansions in human cancer genomes”的文章。研究团队在横跨29种癌症类型的2622个癌症基因组中确定了TR扩增,并在7种癌症类型中发现了160个反复出现的rREs,包括许多位于已知调控元件中或附近的rREs,其中大部分(155/160)是癌症亚型特异性的。研究结果表明,rRE可能是人类癌症遗传变异的一个重要的未开发资源,该研究则提供了一个全面的rRE图谱,以供研究人员进行更加深入的探索。
文章发表在Nature
主要研究内容
rRE的鉴定及特征分析
首先,研究人员在国际癌症基因组联盟(ICGC)和癌症基因组图谱(TCGA)中收集了WGS数据进行统一处理,包括来自2509名患者的2622个癌症基因组,横跨29种不同的癌症类型。每一种癌症类型都被归为同一队列,并独立于其他癌症类型进行分析。
最终研究人员在7种不同癌症中共鉴定160个rRE,并且主要是癌症亚型特异性的。分析显示,rRE主要在前列腺癌和肝癌中发现,其他癌症包括卵巢癌、毛细胞型星形细胞瘤、肾细胞癌和鳞状细胞肺癌中也检测到rRE。研究人员在三个主要胚层(外胚层、中胚层和内胚层)的组织中都发现了rREs,表明这些扩增是人类基因组固有的现象,而不是任何组织的特异性过程。
图1. 癌症基因组中rRE的全基因组检测,来源:Nature
在160个rRE中,研究人员发现了多种不同的基序,其重复单位长度遵循双峰分布,与其他疾病中发现的RE一致。其中,6例rRE含有已知致病基序,均为GAA。例如,Friedreich共济失调是由编码共济蛋白的基因内含子中GAA基序的重复扩增引起的,这种扩增导致DNA甲基化和抑制性染色质标记的沉积,最终导致基因的强烈抑制和疾病的发展。也正因为如此,研究人员怀疑在癌症中发现的一些rRE可能会通过改变表观基因组来影响基因调控网络。
研究人员检测了rRE与候选顺式调控元件(cCREs)之间的距离,cCRE由大约100万个功能元件组成,包括启动子、增强子和由CCCTC结合因子结合的绝缘体等。靠近调节元件的rRE可能改变该调节元件的功能,如在脆性X染色体综合征和Friedreich共济失调中观察到的那样。有趣的是,rRE的位置比预期的更接近cCRE,160个rRE中有54个直接与一个已知的cCRE重叠。因此,rREs经常在基因组的功能区域或附近被发现。
图2. rRE特征分析,来源:Nature
与癌症有关的rRE
为了检验某些rRE是否在肿瘤发生中起作用,研究团队探索了其与先前确定的癌症风险位点的关系。在前列腺癌中发现了许多rRE,在现有的全基因组关联研究中,已有63个位点与前列腺癌易感性相关。在检测前列腺癌中rRE和癌症风险位点的共定位时,发现rRE的位置比标准的短TR更接近前列腺癌易感性位点。
图3. rRE与癌症的关联分析,来源:Nature
在前期研究中,研究团队使用合成转录延伸因子(Syn-TEF1)靶向相关TR基序GAA,可以逆转Friedreich共济失调几种模型的发病机制。在这项最新研究中,研究人员在34%的肾细胞癌患者(RCC)样本的UGT2B7内含子中观察到GAAA扩增。因此,如果RCC中的GAAA rRE与TR基序功能相似,那么靶向GAAA的Syn-TEF可能具有抗增殖活性。因此,研究团队设计了Syn-TEF3,其包含一个靶向GAAA的聚酰胺和一个溴域配体JQ1,用于富集部分转录机制。
随后,研究团队检测了Syn-TEFs对细胞增殖的影响,并观察到Syn-TEF3以剂量依赖的方式导致人肾透明细胞癌皮肤转移细胞(Caki-1细胞)的增殖显著下降,但对人肾透明细胞腺癌细胞(786-O细胞)影响不大;不靶向GAAA TR的Syn-TEF4并没有显著降低所检测的任何一种细胞系增殖,表明的确需要特异性靶向GAAA。与这一发现一致,经Syn-TEF3处理的Caki-1细胞与对照组相比,细胞死亡显著增加。以上仍是初步结果,但同样表明GAAA-重复扩增可能代表RCC的遗传脆弱性。
图4. RCC中GAAA靶向分子的设计与实验结果,来源:Nature
结 语
综上所述,该研究对不同癌症基因组的rRE进行了全基因组范围研究,确定了7种人类癌症类型中的160个rRE,并发现大多数rRE是癌症亚型特异性的。此外,在疾病中,rREs在人类癌症基因座中富集,且倾向于发生在调控元件附近。总之,以上研究结果揭示了癌症基因组中尚未探索的基因改变,具有重要的机制和治疗意义。
据悉,这也是第一次对神经系统或神经退行性疾病之外的重复扩增进行全基因组研究。这些数据也提供了证据,表明重复扩增应该在神经退行性疾病的边界之外(如癌症中)进行继续探索。同时,该研究工作也为分析复杂疾病的WGS数据集提供了一个研究范式。