产品简介 技术流程 样本要求 案例分析 FAQ

3.png

真菌基因组测序是指利用二代或三代测序技术,获得真菌的基因组序列;并在全基因组组装的基础上,进行基因组组分分析,功能注释等分析,其已取代传统方法成为研究真菌进化遗传机制,关键功能基因的重要工具。

根据不同的研究目的和需求,真菌基因组测序可以细分为如下3个产品:

真菌框架图:采用小片段文库建库的方式,利用Illumina HiSeq进行深度测序,并进行初步的基因组组装,获得基因组序列;其性价比高,满足真菌基因组研究基本需求。

真菌精细图:采用大片段加小片段文库的方式,利用二代+三代进行深度测序,并进行反复优化的基因组组装,获得基因组序列,其是目前研究真菌基因组的主流产品;对于复杂基因组结合Hi-C测序技术将其基因组组装到染色体水平。

真菌重测序:主要是针对已知基因组序列的真菌,采用小片段文库,利用HiSeq进行深度测序,主要关注基因组遗传变异情况(包括SNP、InDel、SV等),也可进行群体真菌进化分析和Ka/Ks分析,是群体研究的首选。


youshi.png


真菌基因组denovo测序.png

yingyonglingyu.png

真菌基因组denovo测序应用领域.png


4.png

真菌基因组De novo测序技术路线.png


图1 真菌基因组De novo测序技术路线

技术路线.png

图2 真菌重测序技术路线


1.png


真菌基因组denovo测序产品参数.png


2.png


真菌基因组测序样本要求.png

三代测序+optical map技术组装成完成的真菌基因组


Single-Molecule Real-Time Sequencing Combined with Optical Mapping 

Yields Completely Finished Fungal Genome


真菌微生物基因组de-novo测序_29.png

1

设计思路


设计思路.png


2

研究结果

组比较

研究者之前通过的Illumina 测序的小片段(500bp)和大片段文库(5kb)对V. dahliae strain JR2进行了拼接组装,称为VerdaJR2v1.5版本,通过optical mapping图谱来连接scaffold,最终有约4500个contigs,N50约17kb,见表1。为了减少该版本的contigs个数和gap的长度,研究者使用了PacBio的长reads来进行补洞和scaffolding。4个SMRT cells共产生2.4Gb的数据,结果显示显著改善了组装的效果:300多个contigs>1kb,最长的contig>2.1Mb(见表1),补gap最显著的证据是N50增大到650kb。


表1 不同的组装方法对V. dahliae strain JR2 的基因组组装结果

不同的组装方法对V. dahliae strain JR2 的基因组组装结果.png

使用纯三代长reads进行基因组组装 

虽然使用了三代数据可以明显改善基因组的组装效果,但仍然还有很大的gap是未知的。为了评估是否仅仅使用三代数据来进行基因组的拼接组装,研究者总共测序了14个SMRT cells,约6Gb的数据量,~167X的基因组覆盖度。随机挑选4/6/8/10/12和全部的14个cells数据进行组装,基于HGAP软件组装的最差结果包括246个contigs,N50<0.3Mb,最大的contigs<1Mb(见表2)。6个和6个cells以上数据组装结果基因组大小为36.5Mb,包括49个contigs,N50>2.9Mb,最大的contigs为5.5Mb,见表2。Contigs数目最少的是14个SMRT组装出来的结果,为34个。


表2 不同的三代数据量对V. dahliae strain JR2 的基因组组装结果的影响

基因组组装.png

V. dahliae strain JR2基因组的组装

为了组装出无gap的基因组,作者采用了18个SMRT cells的数据,约8.9Gb(~248X的基因组覆盖度)。结果包括35个contigs,N50>3.4Mb,最大的contigs为9Mb。随后将这些contigs与optical map图谱进行比对,发现5个contigs代表完整的染色体(1、3、6、7、8)。基于optical ma图谱将12条contigs定位为其余的3条染色体,再用PBJelly (version14.9.9)进行补洞。


35条contigs中的17个覆盖了组装到的基因组的98.1%区域,并且代表了8条连续的DNA序列(见表1),与optical map比对的很好,除了第一、六条染色体的末端,第七条染色体的双末端,见图1A。使用BLASR将PacBio的reads比对组装的基因组上,发现这些染色体的末端有特别高的reads覆盖度,预示着重复序列的 “坍塌”(collapse)。为了说明这个问题,作者进行了基因组组分分析,重复序列的预测见表3,可以反映出这些区域的重复序列具有很高的reads覆盖度。另外,染色体1末端的高覆盖度是由于组装软件组装的300kb的核糖体DNA中的约50kb的重复序列造成的,如图1B。因此,组装基因组和optical map的差异是由于组装过程造成的,作者认为获得了V. dahliae strain JR2的完整的无gap的基因组。


无gap的V. dahliae strain JR2基因组.png

图1 无gap的V. dahliae strain JR2基因组


表3 V. dahliae strains JR2和VdLs17中转位原件和其它重复序列的确定

V. dahliae strains JR2和VdLs17中转位原件和其它重复序列.png

组装基因组的质量校正

基因组组装的质量与用于基因组组装的reads有关。为了评估三代测序错误如何影响基因组组装,作者采用了源自V. dahliae strain JR2PE、MP的 Illumina data,将数据比对到组装的基因组上,SMRT.18是软件生成的错误率最低的基因组。有趣的是,除了SMRT.4,其它所有HGAP拼接的基因组错误率都HGAP(version 2.0)低于采用MHAP(version 1.5b1)方法,见表4。因此,三代测序所固有的测序错误不会影响HGAP(version 2.0)组装出来的基因组效果,只要测序数据量足够多,测序深度足够高,根据本研究,推荐~72X的测序深度。


表4  以VDAG_JR2v4.0作为参考基因组并利用不同组装方法对V. dahliae strain JR2基因组组装的评估结果统计

基因组组装.png

通过三代数据和optical mapping数据组装黄萎病真菌VdLs17的基因组

不同的黄萎病真菌菌株有大量的结构重组和染色体大小变化,之前的研究表明尽管序列相似度很高,但黄萎病真菌VdLs17的基因组相对于JR2有结构重组现象。为了说明本文方法的有效性,利用三代数据和optical mapping数据组装黄萎病真菌VdLs17的基因组,测序数据量:4个SMRT cells,1.6Gb(~44X测序深度),结果为119个contigs,最长的contigs为2.5Mb,N50约711kb。随后将contigs与之前得到的optical map数据结合起来,发现组装的基因组区域有98%的区域被覆盖到。拼接软件没有将存在overlap的contigs连接起来,通过手动将基因组拼接起来,得到8个没有gap的DNA序列,并且与optical map匹配完好。与JR2类似,在染色体1的末端存在着由于核糖体DNA重复序列造成的坍塌(collapse)。此外在8条染色体末端上都发现了端粒重复序列,因此可以判断这八条染色体是端粒-端粒的染色体。


为了确定相对于之前组装结果的改善程度,作者比较了两个基因组,之前的基因组是由一代测序和optical mapping图谱组装而成。令人意外的是,全基因组比对结果显示出现了很多序列倒置,为了解决这个问题,将之前的组装结果与optical map’图谱比对,发现了大量的组装错误,而这些染色体上的scaffold位置虽已经确定,但方向却没有确定,因此造成了倒置现象。因此,通过三代数据和optical mapping数据组装黄萎病真菌VdLs17的基因组得到了无gap的基因组。


表5. 黄萎病真菌VdLs17的基因组组装结果统计

黄萎病真菌VdLs17的基因组组装.png

进化分析

任何基因组的组装困难时重复序列的校正,一般的,通过短reads不容易获得长的重复序列如转座元件(transposable elements,TEs),但TEs是基因组进化的重要推动力,并且与多种生物学过程相关。通过对2个无gap的基因组组分分析,共发现了20约20个TE家族,其中14个为逆转录转座子和其它一些的DNA转位子家族,相对于之前的基因组来说,至少有7个TE是缺少ORF,并且数量明显增多,特别是VdLs17菌株。最后,作者评估了重复序列占基因组的比例约为12%,是之前估计的3倍。

 


3

研究结论



2个黄萎病真菌JR2和VdLs17的完整基因组深入说明了三代测序技术的长reads在基因组组装的威力,并且建立了单倍体真菌基因组组装的方法流程。作者认为~50X的PacBio测序深度对于组装高质量的基因组是足够的。但对于像黄萎病真菌基因组组装需要约72X的数据量。基于长reads 的de novo组装和optical mapping技术,作者很经济的构建出无gap的基因组,随着技术的发展以及测序试剂的更新,将使得复杂真菌基因组的无gap组装变得唾手可得。此外,基因组完成图可以为全面描述生物体复杂生物过程的基因信息提供有力的支持。

 


4

参考文献



Faino L, Seidl M F, Datema E, et al. Single-molecule real-time sequencing combined with optical mapping yields completely finished fungal genome[J]. MBio, 2015, 6(4): e00936-15.


Q真菌基因组测序主要有哪些产品?


A

根据不同的研究目的与需求,细菌基因组测序可以细分为如下3个产品:

真菌框架图:采用小片段建库(500bp),HiSeq深度测序与初步的基因组组装策略,性价比高,满足真菌基因组研究基本需求。

真菌精细图:采用大片段(2Kb+5Kb)加小片段建库,HiSeq与MiSeq深度测序以及反复优化的基因组组装策略,是目前研究真菌基因组的主流产品。

真菌重测序:针对已知基因组的真菌,采用小片段建库,HiSeq深度测序,后续分析不依赖于组装,关注基因组变异情况(包括SNP与InDel等),是群体研究的首选。



Q微生物全基因组测序的高级分析有哪些?


A

主要是比较基因组学,包括4个方面:

①Mummer共线性分析:选取多个近缘物种的参考序列,运用软件将前期组装得到的基因组序列与近缘物种进行排序比对,从而得到基因组之间的相似性及共线性关系的信息。 

②Blast共线性分析:能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。主要是利用BLAST软件,进行组装结果与近缘物种参考基因组比对,统计其基因组中相似匹配的位置。

③Cor-Pan基因:选取多个近缘物种的相关基因蛋白序列,通过比较基因中蛋白质的序列,找出物种间共有和独有的基因数目,构建出几个基因组间的Core和Pan基因。

④基因家族分析:选取多个近缘物种的相关基因蛋白序列,通过比较基因中蛋白质的序列,找基因中相近的序列,基因组家族是多个基因组中共同祖先的一组基因,往往具有相似的结构和功能,因此也可以作为未知基因功能的依据,也可以为基因进化历史提供线索。




在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980