文献分享|单倍型组装在复杂植物基因组研究中的应用
2022.04.21

目前大多数高度杂合的二倍体或者多倍体物种的基因组为嵌合基因组,忽略了单倍型之间的差异。近年来,科研工作者根据SNP位点、亲本二代数据等组装了一些二倍体物种的单倍型基因组,证实了单倍性之间的染色体重排、SNP等结构变异,以及单体型特异的等位基因表达对表型的影响。


今天小编为大家分享一篇文献综述,系统地回顾总结一下单倍型组装在复杂植物基因组研究中的进展,包括组装策略及应用等。


文章名称:De novo phasing resolves haplotype sequences in complex plant genomes

发表时间:2022年3月25日

发表杂志:Plant Biotechnology Journal(IF: 9.803)

软件:TrioCanu,FALCON-Phase,ALLHiC


软件 下面的图.png


如何准备单倍型组装的数据



常用的软件包括TrioCanu,FALCON-Phase和ALLHiC。TrioCanu和FALCON-Phase,推荐结合Hi-C、10X Genomics、BioNano(可选)数据共同构建染色体。


图2.png

 

图2 使用TrioCanu,FALCON-Phase和ALLHiC进行单倍型基因组组装流程



单倍型组装原理和数据量


TrioCanu使用目标基因组的长读长序列和双亲本的短序列构建单倍型基因组。要求每个亲本数据>30X覆盖率,目标基因组>40X覆盖率,推荐结合Hi-C数据。亲本数据用来构建特异性K-mer数据集,以推断目标基因组中哪些序列来自哪个亲本单倍型。


FALCON-Phase可以实现二倍体基因组的单倍型组装,根据杂合区域将基因组分为primary contigs和associated contigs,计算杂合区域的switch error,获得block,之后结合Hi-C数据将不同的block分配给不同单倍型基因组中。一般要求CLR>60×或者HiFi>30×覆盖率的长reads,以及>100X的Hi-C reads。


ALLHiC可以实现二倍体以外的多倍体分型,但需要亚基因组间有较高的杂合度,和足够准确的初始组装的重叠群,一般先要用3D-DNA等对初始重叠群进行纠错校正。然后对潜在坍缩区域和等位基因间进行修剪,去除噪音,根据互作用信号分组,再将修剪的数据进行回补,组内重叠群定相、排序,分别在各自的单倍型内组装。数据量推荐单套基因组不低于30X HiFi,Hi-C整体200X。


图3.png

图3 单倍型组装原理



评估分型工具准确性


为了验证分型准确性,之前的研究通常使用与亲本基因组比较的方式。比如,TrioCanu组装的拟南芥单倍型基因组,与亲本数据一致性达99%以上,FALCON-Phase测试了斑马雀、牛、及人基因组(HG00733和mHomSap3),达到了91%,96%,80%和91%,ALLHiC分型的水稻基因组比较了两个亚型之间的一致性。三种方法都可以实现高精度的分型,然而这些方法均仅限于特定物种的相对较小的基因组,局限性比较大。植物复杂基因组准确分型仍然存在较大的挑战。



揭示个体单倍型基因组特异信息


嵌合基因组忽略单倍型之间的差异,带来严重错误:1)错误染色体结构,特别是同源多倍体物种;2)基因集遗漏;3)忽略单个单倍型之间的变异而产生嵌合序列,从而影响了重要单倍型特征的识别,如PAV和ASE等。


从9个已发表的植物单倍型分析结果中发现,单倍体之间存在显著差异。单倍型的总长度差异从1 Mb(Medicago sativa L.)到130 Mb(Camellia sinensis)。单倍型之间注释基因的拷贝数变异从13(Vanilla planifolia)到6964(C. sinensis)。此外,还发现了单倍型之间的基因组变异,比如SNP、inDels、SV和PAV等。


表1 单倍型植物基因组组装概述


表一.png




染色体重排


单倍型组装可以获得更准确的染色体结构,尤其是同源多倍体物种。植物基因组在进化过程中,经历了染色体裂变和融合,形成染色体数变异和多倍体化。详细内容可参考安诺合作文章ALLHiC算法组装同源四倍体甘蔗基因组


张兴坦等(2018)通过ALLHiC算法实现了同源四倍体甘蔗基因组的单倍型组装,通过单倍型之间的分析发现了2、6和7号染色体上的同源等位基因之间的倒位,进一步比较个体单倍型结构,证实了这些倒位分别发生在两次WGD期间。


图4.png

图 4 甘蔗单倍型之间的染色体重排



单倍型特异性序列插入


单倍型特异性插入(Haplotype-specific insertions),是一种SV,可以影响生物学特征,如植物表型。由于嵌合基因组组装只包括一个单倍型中的杂合区域,因此无法检测到单倍型特异性插入,会遗漏与重要性状相关的基因组区域。下图描述了两种单倍型特异性插入。


图5.png

图 5 单倍型特异性插入类型


上图(a)说明单倍型特异性序列插入介导的表型变化,左图表示Gypsy LTR-T(长末端重复反转录转座子)插入Gala苹果基因组9号染色体单倍型B的MYB基因上游。右图表明在马铃薯中,与显性等位基因PA1相比,隐性等位基因pa1有额外的19个氨基酸序列插入。

图(b)展示了单倍型之间等位基因特异性表达的例子。左侧展示单倍型之间的差异映射的RNA序列数据,灰色框表示外显子,虚线框表示在相应的等位基因位置不存在外显子。在右侧图表中,展示了香草和苹果在盛开后11、57天、127天和授粉后2、5、6个月种子的情况。



等位基因特异性表达


并非所有等位基因都会表达,即使是每个单倍型中相同等位基因也是如此。其次,在特定单倍型中实际表达的基因可能无法在嵌合基因组中被识别,然而单倍型基因组包含单个单倍型的整个基因库,从而增强我们对等位基因表达的理解。


香草基因组研究表明,CPLP等位基因在每种单倍型中差异表达(图 5b),Vpl_s027Ag26221是单倍型A中的候选CPLP等位基因,与单倍型B中的候选CPLP等位基因相比,Vpl_s027Bg25947其转录丰度相对较低,Vpl_s027Bg25938单倍型B.Vpl_s027Bg25947在所有条件下均高度表达,而Vpl_s027Bg25938在授粉后5-6个月在种子组织中高度表达。这些结果说明了ASE对单倍型B中香草醛生物合成的贡献。


另一个例子是Gala苹果编码醇酰基转移酶的基因(AAT1),虽然两个AAT1等位基因的序列相似,但单倍型A AAT1(来自M. sylvestris)的表达水平高于单倍型B AAT1。


上述研究表明,等位基因与性状调节有关,使用单倍型组装可以准确预估每个等位基因的表达水平。



用于复杂植物基因组的综合基因组编辑方案



使用单倍型精确基因组序列信息的基因组可以提高基因组编辑的速度,特别是复杂基因组结构的多倍体物种。如果使用CRISPR/Cas9基因组编辑,鉴定特定的基因组靶位点是必需的。然而,由于多倍体或高度杂合二倍体植物通常含有许多不同的等位基因,因此靶区可能无法覆盖所有这些等位基因,当仅使用嵌合参考基因组确定靶序列时,会降低编辑的准确性。Chen等在同源四倍体苜蓿中建立了一种有效的基于CRISPR/Cas9的基因组编辑方法,使用苜蓿的单倍型基因组组装,准确识别覆盖四个不同等位基因的目标区域。他们通过编辑豆科植物中MsPDSP基因的突变验证了该方法的准确性。



结论和观点



目前的组装技术追求基因组的长度和完整性,但是忽略了单倍型差异导致的不正确组装。


Trio-Canu、FALCON-Phase和ALLHiC适用于组装不同类型的单倍型的基因组,即使在二倍体植物以外的复杂同源多倍体植物物种中也有一定的适用性。


单倍型研究未来需要注意两个问题:1)不同软件依赖的数据不同,适用性不同;2)缺乏统一有效评估分型准确性的分析手段。


单倍型组装可以解决等位基因表达差异、染色体重排、单倍型特异性插入,并为加速基因组编辑提供有效方案。


参考文献:

Guk JY, Jang MJ, Choi JW, Lee YM, Kim S. De novo phasing resolves haplotype sequences in complex plant genomes[J]. Plant Biotechnol J. 2022 Mar 25. doi: 10.1111/pbi.13815. Epub ahead of print. PMID: 35332665.




活动介绍



5月14日14:00-17:00,安诺优达将举办单体型基因组组装新品发布会,线下交流与线上直播同步进行,感兴趣的小伙伴们可以关注参加哦。


活动.jpg