全基因组关联研究(GWASs)已经发现了超7万个基因组序列变异与疾病和其他特征之间的联系。其中, 部分涉及非编码变异,会通过影响基因表达来发挥作用。但在大多数情况下,这种变异的作用是未知的。
循环蛋白水平的GWASs可以用于鉴定蛋白质数量性状位点(pQTL)。通过与疾病变异的共定位,pQTL可帮助定位致病基因。目前有两种方法用于检测大量个体中的大量循环蛋白:基于适配体的SomaScan和基于抗体的Olink。使用这些方法的大型研究可以揭示蛋白质水平的序列决定因素,识别疾病及其进展的生物标志物,并评估与其他表型和环境暴露的相关性。蛋白质与疾病之间的相关性通常不能区分因果关系,但结合pQTL和疾病变异关联可以区分因果关系,揭示发病的本质并指出药物靶点。
近日,人类遗传学研究与分析公司Decode Genetics研究团队阐述了如何在人群规模上检测血浆中大量蛋白质水平,并结合序列多样性和RNA表达数据,以显著增加对人类疾病和其他表型的洞察力。研究团队将血浆pQTL与遗传关联、疾病和其他性状相结合,发现序列变异和蛋白质水平之间有18,084种关联,其中19%与全基因组测序发现的罕见变异有关,并发现了潜在药物靶点基因,并在Nature Genetics上发表了题为“Large-scale integration of the plasma proteome with genetics and disease”的研究成果。
利用Somascan蛋白质组学方法测定血浆中的蛋白质水平,研究团队分析了35,559名冰岛人的2,700万个序列变异与血浆中4719种蛋白质水平的关联。发现序列变异和蛋白质水平之间有18,084种关联,其中19%与全基因组测序发现的罕见变异有关,93%的关联是新发现的。
与以往的蛋白质组学研究相比,当前研究的样本量可以鉴定更多的pQTL关联。基于SomaScan和Olink,研究团队从已有血浆蛋白质组学研究中复制了83%和64%的pQTL关联(图1)。从INTERVAL研究中分析非复制的关联时,发现大多数非复制的反式pQTL关联与19号染色体上的单一变异rs62143194有关,而这些关联在Fenland研究中也没有复制。缺乏复制可以用标准化或样本处理来解释。通过将SomaScan检测值与Olink对199名冰岛人87种重叠蛋白的检测值进行比较,发现中值相关性为0.76,表明两种方法对这些蛋白的检测具有良好的对应关系。
图1.pQTL与血浆蛋白水平关联的概述。
研究发现,在GWAS目录中,12%的序列变异与疾病和其他性状之间的关联是高连锁不平衡(LD),且pQTL与一个或多个蛋白质水平相关。通过对pQTL与蛋白质水平以外表型关联的分析,该研究团队发现了将该资源与疾病和其他性状的遗传数据整合的多种方法。
当序列中的相同变异与疾病的风险和蛋白质水平相关时,就可以在位点上识别出致病基因。此外,如果基因组中影响蛋白质水平的其他变异也影响疾病的风险,那么很可能蛋白质水平在疾病的发病机制中发挥了作用。此外,pQTL数据还可以提供关于作用机制的信息,这些信息与因果基因鉴定对于药物靶点和生物标志物的发现是非常重要的。
随后,研究团队通过将血浆中的pQTL与个体组织中的eQTL共同定位(图2),发现血浆中的pQTL反映了不同组织中的转录组,揭示了血浆蛋白质组学在研究机体各种组织疾病方面的效用作用。
图2.顺式pQTL、顺式eQTL和PAVs。
该研究基因型数据是基于近15%冰岛人的全基因组测序的估算,与此前的血浆蛋白质组学研究中的1,000个基于基因组的估算不同,其结果能够分析罕见变异对蛋白质水平和疾病风险的影响。同时,研究人员还揭示了pQTL如何定位由序列变异导致的发病机制所涉及的组织或细胞类型,以及如何帮助搜索药物靶向的生物标志物(图3)。
图3.顺式pQTL工件状态注释。
综上所述,该研究针对血浆蛋白水平进行GWAS分析,发现了18,084个序列变异和血浆中蛋白质水平之间的关联,并确定了257,490种相关性。研究团队整合了pQTL与疾病和其他性状的遗传关联,发现GWAS目录中45,334个先导关联中有12%是pQTL高连锁不平衡的变异,并鉴定了938个基因编码的潜在药物靶点,这些变异会影响可能的生物标志物水平。结合蛋白质组学、基因组学和转录组学,可以提高对疾病发病机制的理解,并协助药物的发现和开发。
Kari Stefansson
deCODE遗传学首席执行官、论文资深作者Kari Stefansson表示:“蛋白质组学可以帮助解决遗传学研究确定是什么基因导致了序列变异对疾病的影响。此外,蛋白质组还提供了一定的时间度量,因为血液中的蛋白质水平会上升,它们会随着时间的变化而下降。”
参考资料:
1.Ferkingstad, E., Sulem, P., Atlason, B.A. et al. Large-scale integration of the plasma proteome with genetics and disease. Nat Genet 53, 1712–1721 (2021). https://doi.org/10.1038/s41588-021-00978-w
2.The largest ever study of the plasma proteome published
https://medicalxpress.com/news/2021-12-largest-plasma-proteome-published.html