随着高通量测序技术的发展,测序成本不断下降,越来越多的物种获得了参考基因组序列;在获得参考基因组序列的基础上,人们也可以对某一物种的种质资源进行重测序。在这个过程中人们发现单一个体的基因组序列并不能完全涵盖该物种的所有遗传信息,因此就有了pan-genome(泛基因组)这一概念(具体什么是pan-genome,及pan-genome能做什么,点击阅读《你真的了解泛基因组吗》)。
泛基因组不仅能得到该物种较为完整的遗传信息,更加有利于该物种功能研究及育种研究,而且不得不说,泛基因组研究还是发高分文章的利器,例如大豆、甘蓝、向日葵、水稻等的泛基因组研究都发表在Nature子刊这种级别的杂志上,这不刚刚一篇番茄泛基因组的文献就发表在Nature Genetics上,下面小编就跟大家一起看下这篇文献具体做了哪些工作?
番茄是全球消费最多的蔬菜之一,2017年的总产量为1.82亿吨,价值超过600亿美元。番茄基因组序列极大地促进了科学发现及番茄的分子育种。但是栽培番茄在育种历史中,经历了严重的瓶颈效应,导致其遗传基础狭窄。然而,由于自然和人工育种过程中,将野生近缘种的遗传物种导入到栽培番茄中,所以栽培番茄也具有广泛的表型遗传多样性和代谢多样性的特点。
栽培番茄可以分为两类,一类是果实大的栽培番茄S. lycopersicum var. lycopersicum(SLL),另一类是樱桃大小的早期驯化的番茄S. lycopersicum var. cerasiforme(SLC)。自番茄基因组序列公布以来,人们已经对几百种栽培番茄和野生番茄进行了测序,发现在番茄的育种历史中,基因组发生了改变。但这些分析是通过将测序的短序列比对到参考基因组上进行,在这个过程中忽略了参考基因组中缺失的序列信息。本研究采用“map-to-pan”的策略构建了番茄的泛基因组序列。
材 料
725份番茄种质,包括栽培番茄和其近缘野生种Solanum pimpinellifolium(SP)和S. cheesmaniae and S. galapagense(SCG)。其中栽培番茄的种类及数目如下:372个SLL,267个SLC;番茄近缘野生种的种类及数目如下:78个SP,8个SCG。
测序数据
725份种质材料中,有561份是之前测序的;对其余164材料进行高通量测序。其中98份测序深度超过了20X,242份超过了X。
泛基因组构建方法
对每一份材料的数据进行组装,然后将所有组装的contigs与已发表的参考序列经进行比较,构建泛基因组。
结 果
1
栽培番茄和近缘野生番茄的泛基因组
经过组装后与参考基因组序列比较,得到了4.87Gb与参考序列('Heinz1706')相似度<90%的序列,去重后得到了449,614条序列,总长度为351Mb,这部分序列是参考基因组序列中不存在的序列,其重复序列比例为78.2%。在这351Mb的序列中,有4,873个蛋白编码基因。泛基因组序列总长度为1,179Mb,包含40,369个蛋白编码基因。在泛基因组中包含了一些'Heinz1706'参考序列中没有的重要基因,如Hcr9-OR2A、I2C-1、Pto等。
图 番茄泛基因组
2
蛋白编码基因的PAVs分析
对586份种质(294 SLL、225 SLC、60 SP和7 SCG)进行蛋白编码基因的PAVs(存在与缺失)分析。这586份材料中包含的总的蛋白编码基因为40,283个,其中核心基因为29,938个(74.2%);在99%、1-99%,少于1%的材料中包含的基因个数分别为3232、5912、1287个。
分析还发现野生番茄(SP和SCG)中编码基因数量多于SLC,SLC多于SLL,这说明在番茄驯化和随后的改良过程中,基因发生了丢失。并且发现驯化阶段丢失的基因数目比改良阶段多。采用PAVs构建了系统进化树及进行了PCA分析,发现大部分野生番茄与驯化番茄能够明显分开,而两个驯化番茄亚群能够分开但是存在重叠。
图 野生和栽培番茄中的基因PAVs
通过对SLC与SP,SLL与SLC两组的flexible genes的频率分析驯化和改良过程中受到选择的基因PAV。在驯化过程中鉴定到了120个有利基因,1,213个不利基因;在改良过程中鉴定到的有利基因、不利基因个数分别为12、665个。在一个阶段中有利或不利的基因,大部分(94.9%)在另一个阶段显示相同的趋势,表明从驯化到改良过程中有共同和持续选择偏好的可能性。对驯化和改良过程中不利基因进行富集分析,发现这些基因主要在防御反应中富集,尤其是与细胞壁增厚有关的基因。驯化过程中的120个有利基因有21个在氧化还原过程中富集。分析还发现驯化过程中,不利基因和有利基因有不同的分子功能更,前者主要在ADP bingding富集,后者主要在cofactor、coenzyme、flavin adenine dinucleotide bingding富集。
图 番茄驯化和改良过程中的基因选择偏好
3
番茄育种过程中启动子PAVs的选择
分析发现参考序列中不包含的congtigs中有3,741个位于启动子区域。对这些序列进行分析,发现驯化和改良过程中分别有856和388条序列受到了选择,选择模式同蛋白编码基因相同,即驯化过程中对启动子序列产生的影响比改良过程中更大。驯化和改良过程中受到选择的不利的启动子序列比例分别为83.8%和99.2%。大多数不利启动子也表现出从驯化到改良的保守选择偏好,其中89.9%的启动子在SP到SLC和SLC到SLL的频率变化趋势相似。
4
改善番茄水果风味的一个稀有的启动子等位基因
泛基因组分析发现基因TomLoxC启动子部分有~4Kb的替换。该基因能够通过催化脂质衍生的C5和C6挥发物的合成从而影响水果风味。在TomLoxC基因转录起始位点上游149bp处存在两种基因型,一种是参考基因组'Heinz 1706'中存在的4,724bp的序列,一种是泛基因组中的4,151bp的序列(非参考序列基因型)。其中91.2%的SP群体,15.1%的SLC,2.2%的SLL中具有这4,151 bp的非参考序列基因型,表明在驯化和改良过程中该基因型受到了严重的负选择。进一步分析发现只有6个番茄中有纯合的非参考序列基因型,95个含有两个基因型,473个具有纯合的参考序列基因型。SP中非参考基因型的比例最高(47.4%),而SLC和SLL中则急剧下降,分别为8.4%和1.1%。结合转录组分析发现,同时具有两种基因型的材料TomLoxC的表达水平明显比具有纯合参考序列基因型或非参考序列基因型的高。
图 不同启动子等位基因的TomLoxC基因的表达差异
进一步采用两个亲本(分别含有TomLox启动子的纯合非参考序列基因型和纯合参考序列基因型)构建了RIL群体,对65种挥发性物质进行了QTL定位。分析发现有19个脂肪酸类衍生挥发物和9个类胡萝卜素物质在1号染色体上含有相同的QTL(该区间包含TomLoxC基因)且该基因在RILs群体中具有最高的表达水平,且在双亲中表达差异最显著。通过进一步的转基因实验验证了TomLoxc在类胡萝卜素生产中的作用。
本研究构建了栽培番茄和近缘野生种的番茄泛基因组序列,发现了番茄参考序列中所不存在的351Mb的序列及4,873个蛋白编码基因。这些基因对于番茄改良具有非常重要的作用。同时分析发现番茄驯化、改良过程中大量基因的丢失导致了遗传多样性的下降。现代番茄育种的主要目标是产量、对生物和非生物胁迫的抗性,而忽略了风味、品质相关的性状,从而导致了挥发性物质的减少,其中一个原因是TomLoxC启动子的非参考序列等位基因在驯化过程中受到了强烈的负选择。番茄泛基因组中具有番茄参考序列'Heinz 1706'中不存在的遗传变异信息,这些变异信息可能对表型变化有重要的作用,将有助于促进作物改良。本研究构建的番茄泛基因组将为番茄功能研究和分子育种提供重要的资源。
1.De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits[J]. Nature Biotechnology, 2014, 32(10):1045-1052.
2.Zhao Q , Feng Q , Lu H , et al. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice[J]. Nature Genetics, 2018, 50(2):278.
3.Golicz A A , Bayer P E , Barker G C , et al. The pan genome of an agronomically important crop plant Brassica oleracea[J]. Nature Communications, 2016, 7:13390.
4.Zhang JF, Gao L, et al. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor[J]. Nature genetics,2019
2017年3月,微分基因入驻国家大基因中心,成为国家大基因中心“基因检测平台”运营企业,并成立安徽微分基因科技有限公司。8月,位于安徽巢湖的标准洁净实验室及医学检验所启动运营,占地约2100平方米。10月,全贯穿的基因检测平台、大数据处理平台、高通量自动化样本处理平台、一流的生物样本库开始正式运作。