全外显子测序(WES)走到今天已经有11个年头了。在测序成本大幅下降后,有观点认为WES将被WGS逐步替代。但事实上,WES仍然是NGS技术中的“Sweet Spot”[1]。WES主要由Roche和Agilent共同推动,前者在2007年将固相芯片靶向捕获与高通量测序结合起来[2],开创了外显子高通量测序的新纪元,后者在2009年开发的液相探针极大的简化了实验流程[3],使得WES的规模化、自动化成为可能(图1)。
图1. 基于杂交捕获原理的两种靶向高通量测序技术,需要“重型”设备的固相芯片(左)和轻便的液相探针(右)[4]
在大量数据积累后,WES捕获区域的设计更加“精华”。由于大部分致病突变位于蛋白编码区(CCDS),IDT于2014年发布了经济型39Mb CCDS WES探针,研究人员可以根据经费情况更加灵活地确定研究样本数量。不过就像当年的中关村组装电脑一样,由于只提供探针,IDT WES也进入了“组装时代”,技术人员需要自行采购预文库构建试剂盒、链霉亲和素磁珠等其他辅助试剂,稍显繁琐。
罗氏捕获一直致力于推动NGS的临床应用。早在2013年,贝勒医学院就采用罗氏 HGSC VCRome对250个先天性发育异常的儿童进行WES测序,检出率为25%,首次向人们展示了WES在遗传病临床诊断中的强大潜力。随后,研究者又使用VCRome对 2000例病例进行了分析,为WES走进临床提供了大量一线数据[5,6]。现在,越来越多的数据表明,WES可以为遗传病患者带去更优的医学决策[7]。2017年,罗氏捕获技术又助力斯隆凯特琳癌症中心的MSKCC-IMPACT Panel成为FDA首个批准的肿瘤多基因检测试剂盒[9]。
图2. WES应用于遗传病致病基因鉴定[8]
可以预见,NGS技术将会越来越广泛和深入的应用于临床诊断,包括遗传病辅助诊断、癌症伴随诊断、单基因病无创产前诊断等领域。作为一项新兴的分子检测技术,目前的NGS检测流程长且复杂,如何建立有效的样本跟踪、污染监测等质量控制体系是未来NGS大规模应用首先需要考虑的问题。
图3. “漫长”的NGS癌症基因检测流程[9]
在这样的大背景下,罗氏推出了行业内首款具有样本跟踪、鉴别功能的全外显子测序产品SeqCap EZ Prime Exome,为建立系统的NGS行业规范迈出了重要一步。接下来,我们将为大家详细介绍罗氏这款引领行业标准的全外显子产品。
高性价比
Prime Exome 的捕获区域大小为37 Mb,属于“精华版”,它基于GRCh38/hg38人类参考基因组并参考最新的CCDS数据库[10],覆盖98.1%蛋白编码区域。与竞品相比,即使使用更少的测序数据量,Prime Exome对ACMG、ClinVar等医学临床数据库的覆盖也只多不少。再加上在On-target(特异性)和覆盖均一性方面的优势,Prime Exome能使测序费用降低近30%。简而言之,Prime Exome的性价比更高。
图4. SeqCap EZ Prime Exome可以花费更少的数据量并获得更高的覆盖。使用相同的Coriell DNA,利用 SeqCap EZ Prime Exome与竞品的WES Panel进行捕获,然后在Illumina Hiseq2500测序仪上分别测序20M和27.5M reads(100PE)。
数据表现卓越
如图5所示,从罗氏发布的测试数据来看,100ng起始,在测序4Gb时、~4%的冗余度、~70%的On-target (特异性)和96.3%的Target区域可达到20x以上的深度(均一性),Prime Exome数据表现优异,符合罗氏捕获产品的一贯表现。
图5. 罗氏 SeqCap EZ Prime Exome 全外显子测序表现(20M Reads\100PE\4Gb)
卓越的On-target和覆盖均匀性一直以来都是罗氏捕获产品的标签(图6A),最直接的好处是不用加测来“将就”那些深度不够的区域,可节省数据量。Prime Exome优秀的数据表现得益于其系统的探针设计,比如,高浓度探针、超多重叠瓦(图6B)、独特的重复区探针设计算法以及精雕细琢的探针配比。值得注意的是,Prime Exome还应用了最新的探针制造工艺,进一步提高了其在高GC区域的覆盖(图6C)。
图6. A: 罗氏 WES覆盖均一性一直处于行业领先水平[11];B:超多重叠瓦探针设计[11];C:全新的Prime探针工艺明显改善高GC区域覆盖[12]
SNP样本跟踪技术
目前的NGS实验流程较为复杂(图3),从采集样本到出具结果之间可能有十几个步骤,样本之间的污染、甚至是混淆的风险大大增加。有文献报道,研究人员发现自己实验室某些样本的Y染色体相关基因表达异常,推断可能存在多个混淆的样品(图7上)。而这种现象有可能是普遍存在的,所以,他们接着又对一些公开发表的人类基因数据进行分析后发现,约3%(41/1238)的样本被弄混了,个别数据库中存在混淆可能性的样本高达23%(20/87)[14]。除此之外,样本间污染问题也有报道(图7下)。
图7. 上:利用Y染色体基因表达发现的多个混淆样本[14];下:利用SNP鉴定样本间污染比例[15]
为避免以上问题,罗氏 SeqCap EZ Prime Exome包含了340个精心挑选的SNP位点[13],这些SNP位点组成了源于DNA内部的样本识别ID,可以在整个检测过程中明确地跟踪每个样本(图8),并监测样本间的污染情况。与手动添加掺入标记物或Index测序标签不同,SNP ID可以规避人为操作失误的风险。
图8. 使用SNP ID跟踪样本示意图[13]
如图9所示,在对8种Coriell DNA的捕获测试中, Prime Exome的SNP探针表现优异,在测序4Gb数据量时,340个SNP位点的平均深度≥40x,其中300个位点的深度都达到20x以上。
图9. Prime Exome中SNP探针数据表现(20M Reads\100PE\4 Gb)
罗氏外显子大家族产品一览
在新成员Prime Exome加入后,罗氏外显子Panel变得更加丰富。如表1所示,罗氏外显子捕获系列包括专注核心区域的Prime Exome(37.1Mb)、适合临床医学研究的MedExome(47Mb)、最全面的EZ Exome V3(64Mb)、含有专属UTR的EZ Exome+UTR(96Mb),除此之外还有经,过大规模临床验证的HGSC VCRome(45.2Mb)。值得注意的是,用户可以在MedExome和EZ Exome V3的骨架Panel基础上进一步掺入个性化靶标,实现用户产品差异化。
表1:罗氏外显子捕获产品
结 语
综上,罗氏 SeqCap EZ Prime Exome主要有两个方面的调整,精简全外显子panel减少测序成本、加入SNP探针建立样本跟踪体系。
经过多年的发展,基因组研究已经慢慢从狂热回归理性,行业也逐步找到了NGS最具性价比的应用方向。罗氏 37Mb Prime Exome是遗传病、癌症等基因组数据积累到一定阶段的必然产物,也是WES从研究走向临床应用的重要探索。
随着NGS在产前筛查、遗传病辅助诊断以及肿瘤精准医疗等领域的应用,建立全面的质量管理体系以及系统的行业规范迫在眉睫。NGS检测流程较长,DNA分子又看不见,摸不着,DNA样本“张冠李戴”可能会引发严重的医疗事故。罗氏 SeqCap EZ Prime Exome为行业提供了一种利用样本内部的SNP标志物进行监控的方案,利用这些SNP ID,我们可以建立系统的质量管理体系,包括精确跟踪受检者的DNA样本、监控样品污染、明确家系成员的生物学遗传关系等,有望为NGS的大规模临床应用提供更有力的质量保障。
· END ·