生信读CNS|单体型组装如何助力稗属植物环境适应性研究
2022.04.13

单体型基因组组装一直都是热点技术,今天安诺小课堂将以一篇NC文章为例,由安诺优达大项目组的杨老师从生信分析角度为大家详细解析,热烈欢迎!



女娃娃.png


男娃娃.png


太客气了,很高兴能跟大家一起读文献!

图片

题目:Genomic insights into the evolution of Echinochloa species as weed and orphan crop

中文题目:从基因组角度研究稗属植物作为杂草和孤儿作物的进化关系

发表日期:2022年

发表杂志:Nature Communications

影响因子:14.919





我简单介绍一下这篇文章作者使用单体型组装的方法研究了稗属作物和杂草的基因组,研究了稗属作物进化与环境的适应性关系。



女娃娃.png

图一.png


图 1 技术路线

 

我觉得这个物种选的非常厉害!



女娃娃.png
男娃娃.png


是的,这个工作为解决人工选育带来有效群体减小的问题,提供了从近缘种找目标基因的思路。有个很热的概念叫“孤儿作物”,这是一类关注不足,种植投入低,性状优良,抗逆性强的作物。这个工作,从稗属基因组,为什么有这么强的抗逆性,是什么原因、什么时间稗属祖先被驯化,有哪些抗除草剂特征……都有了系统的研究。

这篇文章提出了一个新的软件DipHiC,真厉害!



女娃娃.png
男娃娃.png


新软件的确是很大的突破,不瞒你说,我们也第一时间做了测试。

杨老师,我不明白为什么稗属基因组能发Nature Communications



女娃娃.png
男娃娃.png


一是组装出了六倍体的单体型基因组,而且挂载到染色体,这个分析很新颖。

二是这个工作全面回答了几个前沿问题,这个点很重要。一个又新颖又系统的故事是审稿人很看重的地方。

之前也发表了六倍体小麦基因组,为什么这个六倍体的单体型基因组就与众不同?



女娃娃.png
男娃娃.png


基因组越来越多追求单体型基因组,从而可以有效避免坍缩基因组对等位基因、变异等研究带来的错误影响。六倍体基因组相对于二倍体、四倍体基因组,由于其单体型间的同源区域更多,对于同源区域的区分就更复杂,故而组装难度进一步提升。

异源六倍体组装难度相当于同源三倍体。当然,如果要是同源六倍体,那难度就非常高了!

杨老师,单体型基因组怎么解释呢?



女娃娃.png
男娃娃.png


单体型可以根据亲本区分父系单体型和母系单体型,也可以根据明确的祖先基因组区分不同来源的单体型。六倍体小麦可以按照三次全基因组复制事件拆分,也可以按照父系和母系拆分,甚至能做到无亲本数据拆分呢!

你看这篇文章,二代Survey估计基因组大小约为1.18 Gb,亚基因组大小怎么变成436.4(DH),310.5(EH)和347.1 Mb(FH)了呢?怎么还不一样呢?



女娃娃.png
男娃娃.png


涉及3个问题,第一,Survey基于k-mer频率分布得到估计的单倍体基因组大小,而四倍体基因组大小约是单倍体基因组大小的4倍。第二,单体型基因组大小受到物种进化,比如杂交和全基因组扩增,来源不一样,所以大小也不一样。此外还受拆分策略等的影响,所以亚基因组的大小不是单纯的除以几套的关系。第三,单体型基因组大小比预估的稍小,这是因为生信分析的偏差,我们要依据分型的准确度考虑这个偏差是否合理。

那要是这样,我的contig N50岂不是会降低?怎么解释?



女娃娃.png
男娃娃.png


是的,单体型组装为了保留单体型间的差异,同时较大程度避免假阳性,我们目前采用的策略是牺牲连续性,保证准确度。

我们测试了单套基因组不低于45 X的数据量,有些改善。单体型组装也是基于overlap或者k-mer的,所以传统组装难以组装出的片段,对于单体型组装也是很难的。

单体型组装因为是个体内部的亚基因组组装,所以保证准确度,避免假阳性才是最重要的。要不然一不小心震惊了世界就不好了。

虽然连续性降低了,但是从茶树、马铃薯这些文章来看,单体型与性状和表型的联系是更紧密的,对于科学问题的回答是能提供强证据的。这篇文章也对亚基因组分析了系统发育模型,表明CH亚基因组的祖先二倍体在遗传上接近DH亚基因组的祖先基因组。


a.jpg


单体型基因组怎么用呢?我看这篇文章说不同变种间基因交流频繁,而单体型基因组之间缺乏大规模的基因组交换啊,那拆单体型有什么意义吗?



女娃娃.png
男娃娃.png


这是研究尺度问题。本工作中,BH和CH两个亚基因组是有明显的分化和选择的,且在E. oryzicola的优先分化和选择还受到纬度的影响,这些都支持异源多倍体化和适应中的潜在亚/新功能化。

随着时间的推移,很多物种尤其是植物会发生大规模的染色体加倍,单体型基因组间也会快速进化,差异越来越丰富,以增强环境的适应能力,拆分单体型可以更细致的研究单体型之间的关系,探究更细致的揭示等位基因表达差异、插入缺失等变异对物种性状、重要天然产物合成等带来的影响。

我记得有个芒属的文章,是说重复DNA序列在亚基因组中快速进化,是这种吧?



女娃娃.png
男娃娃.png


是的,拆分出单独的单体型之后,我们的研究思路不仅包括传统基因组,甚至是物种内部的差异也是可以做到的。单体型基因组组装最主要是解决等位基因表达不均衡和进化问题。

做单体型分析要不要考虑同源交换?



女娃娃.png
男娃娃.png


文章中提到从二倍体基因组中观察到了24个候选同源交换事件,作者对比了单拷贝基因集,也就是做系统发育分析用的数据集,发现3557个单拷贝基因中没有一个位于候选同源交换区域内,所以得出同源交换不会影响系统发育推断的结论。这个结论是有数据支持的,如果换个物种,可能会是其他结论。 

单体型分析后,我还要能研究基因家族吗?



女娃娃.png
男娃娃.png


当然可以,不过基因家族不是随便选的,这个工作中选的NB-ARC基因家族是与植物的生物、非生物胁迫的响应过程和植物的适应性十分重要的基因家族,本文的主旨也是探究稗属的进化、适应机制,所以选择的NB-ARC。

看起来很高级的样子,想做单体型分析,应该怎么做呢?



女娃娃.png
男娃娃.png


单体型分析是做之前一定要有个“我要解决什么问题”的概念,然后再根据实验可行性和后续数据进行实验设计。需要将物种情况提前调研清楚,是否存在不好收集亲本样品或者找不到外源基因组辅助分型,能否从形态上鉴定倍性或者具体是哪一个物种等等。样品也要提前保存好,实验要有规划。顶配的样品才能出顶配的数据!

单体型基因组组装还是很新的技术,一定要重视Survey!目前看测序深度不要低于单套30 X HiFi,Hi-C不要低于单套200 X。组装时可以尝试多种策略。这里打个广告,如果委托安诺优达来做,我们就都帮你解决啦,有项目找我们~

感谢杨老师!今天又是收获满满的一天!大家针对单体型基因组还有不明白的可以私信小编~有项目记得找安诺优达哦~



女娃娃.png

关于安诺基因

安诺基因在测序方面拥有多样化的产品类型,涵盖了基因组测序、转录组测序、单细胞测序以及表观测序产品等,各类型产品均有丰富的项目经验及物种经验,拥有专业的实验团队、分析团队以及的二代、三代测序平台,为大家提供高质量的测序服务,满足广大科研工作者们的研究需求,一切只为助力科研。

箭头.png

参考文献:Wu, D., Shen, E., Jiang, B. et al. Genomic insights into the evolution of Echinochloa species as weed and orphan crop[J]. Nat Commun 13, 689 (2022). https://doi.org/10.1038/s41467-022-28359-9