GWAS(Genome-wide association studu),即全基因组关联分析,是对遗传多样性丰富的自然群体中的每个个体进行高通量测序,获得数以百万计的SNP分子标记,结合目标性状的表型数据运用一定的统计方法进行关联分析,从而快速准确地定位到影响目标性状的染色体区段或基因。该方法是研究复杂性状遗传的有力工具,已经广泛应用于众多物种的功能基因挖掘中,用于识别影响复杂性状遗传变异和数量性状位点。
但是GWAS分析也有其局限性,即对微效多基因控制的数量性状的检测能力不足,这是因为微效多基因控制的数量性状,每个基因对性状的贡献度都很小,在GWAS分析中往往达不到显著水平,从而不能被准确挖掘出来。

WGCNA(weighted gene co-expression network analysis),即权重基因共表达网络分析,该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。WGCNA主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联分析四个步骤。
既然这两种技术都能鉴定与性状有关的基因,那么将这两种技术结合,是否能够进行优势互补,提高对微效位点的检测能力呢?下面,我们就通过一篇GWAS+WGCNA联合分析的文献,看下其在水牛产奶量的微效位点挖掘上的威力吧。
论文 ID
文章名称:Integrative Analysis of Transcriptome and GWAS Data to Identify the Hub Genes Associated With Milk Yield Trait in Buffalo
译名:转录组和GWAS数据联合分析鉴定与水牛产奶性状有关的核心基因
发表期刊:frontiers in Genetics
IF:4.151
发表时间:2019年
材料与方法
转录组测序:生产后7天(D7)、50天(D50)、140天(D140)、280天(D280)的乳腺组织,每个时间点2个重复,其中D7代表泌乳早期、D50代表泌乳高峰期、D140和D280代表泌乳中期和后期。用乳腺组织提取RNA,构建转录组文库,Illumina HiSeq 2000测序。
GWAS分析:基于以前公布的935头地中海水牛的GWAS数据库进行基于基因的关联分析,挖掘低显著关联基因(NSGG)。
分析内容
1
乳腺组织mRNA表达模式分析
经过过滤,每个样品约产生22.14Mb clean reads,约90.89%的clean reads能够比对到水牛基因组(UOA_WB_1),约74.79%的clean reads是唯一比对。所有RNA-Seq样品间的皮尔逊相关系数在0.9318-1.0000之间,表明RNA-Seq结果满足DEG分析的需求。
共鉴定到26,037个mRNA;相比于D7,在D50,D140,D280分别有103,601,439个基因上调,58,440,266个基因下调;相比于D50,D140,D280上调基因的个数分别为164和119;下调基因个数分别为138和137;相比于D140,D280中上调,下调基因个数分别为80和93。共鉴定到1420个差异表达基因(DEGs),在所有不同时间点中都存在的差异基因为17个。下图为转录组分析相关的结果图。
2
基于基因的全基因组关联分析结果
通过基于基因的关联分析,有976个基因(P≤0.05)被认为是NSGG基因(名义显著关联基因)。将这些基因用于后续的进一步分析。
3
DEGs和NSGG的网络分析
使用WGCNA算法确定不同泌乳期乳腺组织差异基因共表达趋势。其中DEGs形成了7个模块(164个基因没有形成模块,灰色表示),基因个数从44到715个,turquoise(蓝绿色)这个模块包含的差异表达基因个数最多(715个);大部分模块在乳腺腺体特异性基因本体及已建立的细胞功能中富集。
基于关联分析得到的NSGG共形成了4个模块,蓝绿色模块有402个基因,蓝色模块103个,棕色模块59个,灰色模块的为65个不相关基因。其中蓝绿色模块和蓝色模块均在the cell part term中显著富集,棕色模块在the single-organism process term中显著富集。蓝绿色模块基因主要在代谢途径、内噬作用、MAPK信号通路富集;蓝色、棕色模块基因的在Rap1信号通路、ECM受体互作通路富集。
4
鉴定与产奶量有关的模块
对DEGs与NSGG形成的模块与产奶量进行相关性分析。DEGs形成的模块中有5个(蓝绿色、黄色、绿色、棕色、红色)与D7、D280的产奶量有显著正相关性,蓝绿色模块与D7的产奶量相关性最强(r=0.96),棕色模块与D280的相关性最强(r=0.92)。在NSGG模块中,蓝绿色模块与D7的产奶量相关性最强(r=0.96),棕色模块与D50的产奶量相关性最强。在DEGs和NSGG中都发现蓝绿色模块与D7的产量奶相关性最强,且turquoise模块的基因主要在代谢途径富集;且以往的研究表明泌乳早期是乳腺发育的重要时期;推测turquoise模块中的基因可能与乳腺发育和乳汁分泌有关。
5
鉴定Hub基因
筛选turquoise模块具有较高MM和GS值的基因为与产奶量有关的hub基因。在DEGs和NSGG的模块中分别鉴定到了544个和225个基因;二者共有的基因为12个("real"hub genes),绘制了这12个基因的互作网络图。GO分析发现大部分基因在胞内细胞器,其次是细胞器、胞内部分、胞内和细胞部分富集。
下表是这12个hub genes的列表:
小结
本篇文章是对水牛不同时期乳腺组织进行转录组测序分析基因表达模式及进行WGCNA分析的首篇文献。通过分析,发现turquoise模块与产奶量紧密相关,通过整合转录组和GWAS分析,提高了对微效基因的挖掘效率。鉴定到了12个与产奶量有关的hub genes,有助于更好地了解水牛产奶性状的遗传机制。







