Nature子刊|癌症单细胞等位基因CNA和染色质可及性整合分析方法-Alleloscope

癌症是由基因改变和表观遗传修饰共同驱动的,这些改变导致了癌细胞的转录失调和无限增殖。在单细胞分辨率下对癌细胞进行遗传和表观遗传变化的综合分析将促进我们理解基因组不稳定性和肿瘤进化之间的关系。

等位基因特异性拷贝数谱分析在DNA序列分析中十分重要,同时拷贝数的改变还涉及染色质可及性的改变。目前的单细胞可及染色质测序(scATAC-seq)分析是通过平均reads覆盖率来估计每个细胞的总拷贝数分布。但对于scATAC-seq数据还没有可靠的总拷贝数或等位基因特异性拷贝数分析方法,因此,拷贝数畸变(CNA)和染色质可及性在当前的分析流程中是混淆的。

文章发表在Nature Biotechnology期刊上

近日,宾夕法尼亚大学Nancy R. Zhang研究团队联合斯坦福大学医学院Hanlee P. Ji研究团队,通过大规模并行单细胞测序对两个基因组维度——DNA拷贝数和染色质可及性进行了分析,并在Nature Biotechnology上发表了题为“Integrative single-cell analysis of allele-specific copy number alterations and chromatin accessibility in cancer”的研究文章。为在单细胞分辨率下研究CNA在癌症中的等位基因复杂性,研究团队开发了等位基因特异性拷贝数估计和单细胞多组学分析方法——Alleloscope,能准确发现镜像亚克隆和其他高度复杂的多等位基因CNA位点。与已有的方法不同,Alleloscope可应用于低覆盖率的scDNA测序数据,也可应用于scATAC测序数据和样本匹配的大量DNA测序数据,且不需要外部单倍型定相,使等位基因特异性拷贝数和染色质可及性的联合分析成为可能。

图1. Alleloscope 对单个细胞等位基因特异性拷贝数分析的流程。来源: Nature Biotechnology

研究团队将Alleloscope 应用于8个胃肠道肿瘤样本和2个乳腺肿瘤样本的scDNA-seq 数据,对其准确性进行评估(图2)。研究人员对代表不同染色体不稳定性水平的5个胃肠道肿瘤样本进行了匹配的链读(Linked-read)全基因组测序 (WGS),将Alleloscope估计的单倍型与WGS获得的单倍型进行比较。结果显示,与链读测序相比,Alleloscope对chr21缺失的定相准确度为98%,对chr8和chr20的克隆扩增定相准确度约为90%,亚克隆chr7扩增为79%。表明Alleloscope的等位基因特异性拷贝数估计在一定程度上对定相错误具有鲁棒性。

CHISEL是使用 scDNA-seq 数据估计等位基因特异性拷贝数的方法。因此,研究团队将Alleloscope与CHISEL进行了基准测试。总体而言,Alleloscope 对所有样品均保持高灵敏度和特异性。

图2. 使用链接读取测序数据验证 Alleloscope 对胃癌样本分析的结果。来源: Nature Biotechnology

研究团队利用Alleloscope对转移性结肠直肠癌样本、胃癌细胞系、结肠直肠癌样本和乳腺癌细胞系进行了分析(图3)。结果揭示了代表杂合性缺失的区域以及复杂亚克隆CNA的高流行率,表明亚克隆等位基因特异性CNA是普遍存在的

图3. Alleloscope 检测多种癌症类型,检测杂合缺失事件和多等位基因CNA,描绘总拷贝数分析的复杂亚克隆结构。

为了验证Alleloscope的scATAC-seq分析能力,研究团队首先分析了两个基底细胞癌(BCC)样本与匹配的全外显子(WES)数据。结果显示,对于scATAC-seq数据中的每个细胞,Alleloscope可估计每个区域中的等位基因特异性拷贝数。同时,Alleloscope可基于统一流形逼近与投影清楚地将肿瘤细胞与正常的成纤维细胞和内皮细胞群区分开。表明Alleloscope可以准确区分低覆盖率scATAC-seq数据中的扩增和杂合性缺失事件。

通过将等位基因特异性CNA谱映射到scATAC-seq数据中的单个细胞,Alleloscope允许对拷贝数和染色质可及性进行如下综合分析:1. 检测亚克隆;2. 量化亚克隆或CNA峰值;3. 描绘出独特地归因于染色质重塑的亚克隆(图4)。

图4. BCC样本的scATAC-seq数据的Alleloscope多组学分析。

除了scDNA-seq,研究团队还对胃癌细胞系进行了scATAC-seq,在每个细胞73,845个片段的平均覆盖率下分析3,515个细胞的染色质可及性,将scATAC-seq获得的等位基因特异性拷贝数谱与scDNA-seq给出的拷贝数谱进行比较,最终将这两种数据类型整合到该细胞系的多组学特征中。

此外,Alleloscope 还能为每个区域中的每个细胞的拷贝数状态分配生成置信度分数。基于对ATAC-seq和DNA-seq数据集中标记区域置信度分数的检查,研究团队选择了6个亚克隆进行进一步研究。

分析发现,六个亚克隆在其染色质可及性分布方面表现出显着差异,其中一些峰值水平差异由CNA驱动。为了描绘克隆之间不同的峰,并确定 CNA无法解释的峰差异,研究团队开发了基于广义对数似然比 (GLLR) 的统计检验,调整参数从每个克隆的拷贝数分布计算两个亚克隆。结果揭示了CNA作为该肿瘤染色质可及性亚克隆差异潜在机制的重要性。

图5. 胃癌细胞系ATAC-seq数据的等位基因特异性拷贝数和染色质可及性的综合分析。

综上所述,该研究开发的Alleloscope方法可用于等位基因特异性拷贝数估计,适用于scDNA-seq和ATAC-seq数据。通过匹配的链读WGS、基于下采样的基准实验和模拟分析,研究团队评估了Alleloscope的准确性并基于CHISEL进行了基准测试,结果显示Alleloscope能准确发现镜像亚克隆和其他高度复杂的多等位基因CNA位点,使等位基因特异性拷贝数和染色质可及性的联合分析成为可能。

打开APP阅读更多精彩内容