产品简介 技术流程 样本要求 案例分析 FAQ

真菌近完成图,即对真菌基因组采用PacBio第三代单分子实时测序技术进行从头测序及拼接、组装,从而获得全基因组序列图谱,组装效果达到Contig N50>1Mb 的接近完成图级别。通过测序组装可以预测真菌的重要基因和蛋白以了解其功能和可能机制;在研究病原菌的致病性与宿主相互作用方面,可以鉴定致病相关基因、开发和研究疫苗以及新型抗菌药物等。


三代测序+optical map技术组装成完成的真菌基因组


Single-Molecule Real-Time Sequencing Combined with Optical Mapping 

Yields Completely Finished Fungal Genome


真菌微生物基因组de-novo测序_29.png


1

设计思路


设计思路.png



2

研究结果

二三代组装结果比较

研究者之前通过Illumina小片段(500bp)和大片段文库(5kb)测序对V. dahliae strain JR2基因组进行了拼接组装,称为VerdaJR2v1.5版本,通过optical map来连接scaffold,最终获得约4500个contigs,N50约17kb(见表1)。为了减少该版本的contig数目和gap的长度,研究者使用了PacBio的长读长测序数据进行补洞和scaffolding。4个SMRT cells共产出2.4Gb的数据,结果显示显著改善了组装的效果:300多个contigs>1kb,最长的contig>2.1Mb(见表1),contig N50增大到650kb。


表1 不同的组装方法对V. dahliae strain JR2 的基因组组装结果

不同的组装方法对V. dahliae strain JR2 的基因组组装结果.png


使用纯三代长reads进行基因组组装 

虽然使用三代数据进行补洞可以明显改善基因组的组装效果,但仍然还有很多gap的存在。为了评估纯三代测序数据组装基因组的效果,研究者对V. dahliae strain JR2基因组进行了14个SMRT cells的测序,得到约6Gb的数据量,~167X的基因组覆盖度。随机挑选4/6/8/10/12和全部的14个SMRT cells数据进行组装,当只使用4个SMRT cells的数据进行组装时,组装结果包括246个contigs,N50<0.3Mb,最大的contigs<1Mb(见表2)。当数据量增加到6个cells时,组装结果显著改善,contigs数目减少至45个,N50>3.0Mb,最大的contigs为8.5Mb(见表2)。Contigs数目最少的是利用14个SMRT cells测序数据组装出来的结果,为34个(见表2)。


表2 不同的三代数据量对V. dahliae strain JR2 的基因组组装结果的影响

基因组组装.png


V. dahliae strain JR2基因组的组装

为了组装出无gap的基因组,研究者采用了18个SMRT cells的测序数据,约8.9Gb(~248X的基因组覆盖度)。组装结果包括35个contigs,N50>3.4Mb,最大的contig为9Mb。随后将这些contigs与optical map进行比对,发现其中5个contigs代表完整的5条染色体(1、3、6、7、8)。基于optical map将12条contigs定位为其余的3条染色体,再用PBJelly (version14.9.9)进行补洞。

35条contigs中的17条覆盖了基因组的98.1%区域,并且代表了8条连续的DNA序列(见表1),与optical map比对的很好,除了第一、六条染色体的末端,第七条染色体的双末端,见图1A。使用BLASR将PacBio的reads比对到组装的基因组上,发现这些染色体的末端有特别高的reads覆盖度,预示着重复序列的“坍塌”(collapse)。为了阐释这个问题,研究者进行了重复序列注释(见表3),发现这些区域确实存在着很多的重复序列。另外,染色体1末端的高覆盖度是由于组装软件把optical map分析的300kb的rDNA区域组装到了约50kb的区域范围内引起的,这种组装结果和optical map分析结果的分歧很可能是因为重复序列的“坍塌”引起的,如图1B。因此,本研究最终获得了V. dahliae strain JR2完整的无gap的基因组序列。


无gap的V. dahliae strain JR2基因组.png

图1 无gap的V. dahliae strain JR2基因组


表3 V. dahliae strains JR2和VdLs17中转座子原件和其它重复序列的确定

V. dahliae strains JR2和VdLs17中转位原件和其它重复序列.png


组装基因组的质量校正

基因组组装的质量与用于组装的reads密切相关。为了评估三代测序单碱基错误是否影响基因组组装效果,研究者将V. dahliae strain JR2基因组的Illumina测序数据比对到组装好的基因组上进行分析,分析结果表明SMRT.18是组装错误最少的基因组。有趣的是,除了SMRT.4,其它所有HGAP软件拼接的基因组错误率都低于之前采用MHAP(version 1.5b1)方法组装的基因组(见表4)。因此,三代测序单碱基的测序错误不会影响HGAP(version 2.0)组装出来的基因组效果,只要测序深度足够高,通过校正,依然能够获得高质量的基因组。


表4  以VDAG_JR2v4.0作为参考基因组并利用不同组装方法对V. dahliae strain JR2基因组组装的评估结果统计

基因组组装.png


通过三代数据和optical map数据组装黄萎病真菌VdLs17的基因组

不同的黄萎病真菌菌株有大量的结构重组和染色体大小变化,之前的研究表明尽管序列相似度很高,但黄萎病真菌VdLs17的基因组相对于JR2有结构重组现象。为了说明本研究方法的有效性,利用三代数据和optical map数据组装黄萎病真菌VdLs17的基因组,测序数据量:4个SMRT cells,1.6Gb(~44X测序深度),组装结果为119个contigs,最长的contigs为2.5Mb,N50约711kb。随后将contigs与之前得到的optical map数据结合起来,发现组装的基因组区域有98%的区域被覆盖到。意外的是,拼接软件没有将存在overlap的contigs连接起来,进一步通过手动将基因组拼接起来,得到8个没有gap的DNA序列,并且与optical map匹配完好。与JR2类似,在染色体1的末端存在着由于核糖体DNA重复序列造成的坍塌(collapse)。此外在8条染色体末端上都发现了端粒重复序列,因此可以判断这八条染色体是端粒-端粒的染色体。

本研究进一步将组装的VdLs17的基因组与之前报道的一代测序组装的基因组进行比较分析。令人意外的是,全基因组比对结果显示出现了很多序列倒置,为了解决这个问题,将之前的组装结果与optical map比对,发现了大量的组装错误,而这些染色体上的scaffold位置虽已经确定,但方向却没有确定,因此造成了倒置现象。因此,通过三代数据和optical map数据组装出了黄萎病真菌VdLs17的无gap基因组。


表5. 黄萎病真菌VdLs17的基因组组装结果统计

黄萎病真菌VdLs17的基因组组装.png

进化分析

对于基因组组装来说,最大的挑战是对重复序列的正确组装,一般的,通过短reads不容易获得长的重复序列如转座元件(transposable elements,TEs),但研究表明TEs是基因组进化的重要推动力,并且与多种生物学过程相关。通过对2个无gap的基因组组分分析,共发现了约20个TE家族,其中14个为逆转录转座子和其它一些的DNA转位子家族,相对于之前的基因组来说,至少有7个TE是缺少ORF,并且数量明显增多,特别是VdLs17菌株。最后,研究者评估了重复序列占基因组的比例约为12%,是之前估计的3倍。


3

研究结论


本研究通过对2个黄萎病真菌JR2和VdLs17的完整基因组组装深入说明了三代测序长读长在基因组组装上的优势,并且本研究建立了单倍体真菌基因组组装的方法流程。研究者认为~50X的PacBio测序深度对于组装高质量的基因组是足够的。但对于像黄萎病真菌基因组组装需要约72X的数据量。结合三代测序的de novo组装和optical map技术,研究者构建出了无gap的基因组,随着技术的发展以及测序试剂的不断更新,将使得复杂真菌基因组的无gap组装变得更加容易。此外,基因组完整图谱的获得将对生物体内基因功能的研究提供强大的支持。

 

4

参考文献


Faino L, Seidl M F, Datema E, et al. Single-molecule real-time sequencing combined with optical mapping yields completely finished fungal genome[J]. MBio, 2015, 6(4): e00936-15.


Q  真菌近完成图测序会建小片段文库吗?

A  会。三代真菌近完成图测序,小片段文库主要有两个作用,一个用来作为基因组Survey,预估基因组大小并排除污染,还可以用于组装完成后的验证,进一步确认基因组组装的质量。

Q  真菌近完成图的高级分析有哪些?

A  主要是比较基因组学分析,包括4个方面: ①Mummer共线性分析 ②Blast共线性分析 ③Cor-Pan基因 ④基因家族分析。


在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980