单细胞RNA测序(scRNA-seq)技术目前正被大量用于表征人类组织和细胞的类型,相关的研究项目包括人类细胞图谱项目、美国国立卫生研究院(NIH)人类生物分子图谱计划(HuBMAP)和LifeTime计划等。但由于单细胞测序数据的维度和噪声高,使得细胞异质性的表征变得十分复杂。
目前探索细胞类型多样性的方法主要依赖基于聚类的计算方法,应用最广泛的有PCA、ICA、t-SNE和UMAP。由于异质性的表征是在细胞亚群而不是单个细胞分辨率上,即基于聚类的方法会使基因特征分析受到分辨率水平的限制,而对于转录异质性的详尽研究需要对数据集中每个细胞的基因特征进行可靠的统计。
近日,来自法国巴黎大学的研究团队在Nature Biotechnology上发表了题为“Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID”的研究文章。研究团队开发了一种无聚类多元统计方法Cell-ID,可从单细胞测序数据中可靠提取每个细胞的基因特征,还可跨数据集的自动注释细胞类型和细胞匹配,从而发现未知的罕见细胞类型或细胞状态。
文章发表于Nature Biotechnology
该研究提出的Cell-ID是一种可提取单个细胞基因特征的多变量方法(图1),其基于多重对应分析(MCA),MCA是一种可以同时表示低维空间中的观察值(例如细胞)和变量(例如基因)的统计技术。在MCA双标图中,将每个细胞的基因与该细胞的距离进行排序,排名最高的基因可被作为代表该细胞身份的基因特征(图1a)。
图1. Cell-ID方法概述,来源:Nature Biotechnology
研究人员首先在100个模拟产生的scRNA序列数据集上评估了基于MCA的细胞和基因低维表达的一致性。并使用两组独立的人血单核细胞,通过同时检测单细胞蛋白标记物水平,对单个细胞进行可靠的注释:CITE-seq方案用来注释脐血单核细胞(CBMCs);REAP-seq方案用来分析外周血单核细胞。结果显示,Cell-ID基因特征在对应细胞类型的基因列表中显著富集(图2a),在两个数据集的准确率分别达到87%和90%,召回率分别达到84%和73%。这表明Cell-ID可以提取每个细胞的基因特征和识别细胞类型(图2b)。
不仅如此,Cell-ID也能够进行细胞类型的多分类任务,例如捕获造血干细胞的分化(图2c,d)。即使极为罕见的细胞类型,也可以被Cell-ID识别。
图2. Cell-ID通过预先建立的标记列表识别人类CBMCs细胞类型,来源:Nature Biotechnology
随后,研究团队评估了Cell-ID在来自同一组织的独立scRNA数据集中识别类似细胞类型的能力。研究人员分析了来自多个供体和不同测序技术产生的人类胰岛和人类及小鼠气道上皮细胞数据集(图3),结果显示,Cell-ID的整体性能与已经发表的方法相当(图3a)。
研究人员进一步评估了Cell-ID在来自不同组织的独立scRNA序列数据集中识别同一种罕见细胞类型的能力。基于从气道上皮细胞获得的无偏基因特征,Cell-ID在识别肠上皮中的刷状/簇状细胞、内分泌细胞和杯状细胞中保持高精度(90%)、召回率(73%)和F1分数(78%),优于已经发表的方法(图3c、d)。此外,研究人员使用Cell-ID对两个独立的嗅上皮数据集进行细胞类型扫描,对比来自气道和肠上皮的刷状/簇状特征,可识别出推测的罕见的、未分类的孤立性化学感觉细胞(SCCs)(图3e、f)。
图3. Cell-ID对同一或不同来源组织、种内和种间的scRNA-seq数据集的细胞匹配表现,来源:Nature Biotechnology
此外,研究人员还评估了Cell-ID在不同单细胞组学技术产生的数据集中的表现,以及识别基因特征的可重复性。数据分别来自雄性小鼠细胞图谱的scRNA-seq和小鼠ATAC图谱的单细胞ATAC-seq。分析显示,Cell-ID在scRNA-seq和sc-ATAC-seq数据集中匹配的细胞类型具有较高的F1分数,并且与SingleR一起,优于其它评估的参考方法(图4c、d)。
图4. Cell-ID对来源于不同单细胞组学技术的独立数据集上细胞间匹配能力的评估,来源:Nature Biotechnology
综上所述,Cell-ID在不同的供体、起源组织、物种和单细胞组学技术中都是可重复的,具有自动化提取基因特征的能力,可改善单个细胞水平上的生物学解释,从而能够发现以前未被表征的罕见细胞类型或细胞状态,且优于目前可用的其它方法。该方法为跨组织和整个生物体的罕见细胞类型的系统多组学分析奠定了基础,也对鉴定表征健康和疾病的人类细胞类型或细胞状态具有重要作用。
参考文献:
Cortal A, Martignetti L, Six E, Rausell A. Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID [published online ahead of print, 2021 Apr 29].Nat Biotechnol.2021;10.1038/s41587-021-00896-6.