基因组学研究的未来之星——泛基因组
2020.10.15



高通量测序技术的迅猛发展,极大地推动了全基因组测序进程及物种的群体进化、遗传多样性、性状定位等研究。但单一或者少数参考基因组中可能会缺少部分基因,不能完全覆盖物种的全部遗传信息,限制了基因组学研究的深入开展。泛基因组的提出,有效解决了该问题,成为了基因组学研究的新方向。


01

什么是泛基因组?

泛基因组(Pan-genome)指的是同一物种的全部基因,包括在所有个体中都存在的核心基因组(Core genome)和个体特有的可变基因组(Dispensable genome)。核心基因组中的基因一般与物种稳定的生物学功能和表型特征相关,多是一些House-keeping基因;可变基因组则由仅在单个样本或部分样本中存在的序列组成,与物种对特定环境的适应性或特有的生物学特征相关。通过对不同材料进行基因组测序、组装,对组装的不同基因组进行比对、整合,得到的共有序列即为核心基因组,其余为可变基因组(图1A-F)

1.1.jpg

图1 泛基因组图谱示意图


02

泛基因组能做些什么?

泛基因组图谱的构建,不仅能得到该物种较为完整的遗传信息,还可以通过将测序个体与参考基因组比对,获得每个个体或群体的变异情况:从简单的单核苷酸多态性(SNP)、插入缺失突变(InDel),到大片段的结构变异(SV)、拷贝数变异(CNV),以及存在/不存在(PAV)的变化。除此之外,还可以通过对核心/可变基因组中基因的功能、特性进行比较分析,对物种的共有、特有表型产生机制进行深入探究。

1602748357753144.jpg

图2 泛基因组分析流程


03

如何构建泛基因组?


目前比较主流的构建泛基因组图谱的方法有以下三种:


1) 迭代组装


将多个样本的下机数据与参考基因组比对,未比对上的reads组装成新的contigs,将这些contigs添加到原始的参考序列中,构建、获得物种的泛基因组图谱(图3a),小麦泛基因组就是采用这种方法进行构建的[1]。该方法能够快速得到泛基因组信息,适合大规模的群体研究,但在物种基因组较大,或者测序深度较低的情况下,该方式组装的contigs连续性较差,准确性较低。

2) 基于基因组de novo


分别对多个个体进行从头组装、注释,从全基因组层面识别SV/SNP/InDel/CNV及PAV,是目前泛基因组研究运用最广的方法(图3b),近期发表的油菜泛基因组就是基于该方法[2]。这种方法不依赖于参考基因组,可以避免因参考基因组质量问题引起的比对误差,但需要比较高的测序深度(>50X),以确保从头组装的准确性。

3) 图形泛基因组


图形泛基因组是在基因组de novo的基础上,基于图论的组装方法,利用有向图将物种基因组分为核心基因组与可变基因组(图3c),近期发表的大豆泛基因组即基于该方法[3]。与迭代组装和基因组de novo相比,图形泛基因组整合了多个基因组的变异信息,代表了该物种更全面的遗传信息,基于此可进行更准确的变异信息挖掘。图形泛基因组的技术和算法尚未成熟,目前应用还较少,是泛基因组的未来发展趋势。

1.3.jpg

图3 泛基因组图谱构建方法[4]


04

HiFi reads在泛基因组学研究中有哪些优势?

PacBio HiFi reads兼具了长读长、高准确度的特点,用于基因组组装时无需进行三代数据自纠错及二代数据校正,有效节约了分析时间及计算资源,低深度(10-15X)HiFi reads组装后即可进行泛基因组研究。相比高深度的二代数据,HiFi reads组装效果更好,得到的泛基因组信息更加准确,可以进行全变异(SNP、InDel、SV、CNV、PAV)检测,避免了二代数据读长短和三代纳米孔测序准确性低的弊端。










总 结

泛基因组图谱的构建使我们能够获得更全面的物种基因组信息,高准确度的HiFi reads有效保障了泛基因组图谱的准确性,进而获得更精准的个体或群体遗传变异信息,从基因组层面深入解析重要经济价值/农艺性状/表型等的产生机制。随着泛基因组图谱构建方式和分析策略的逐步完善,利用泛基因组解决功能基因组学的研究难题逐渐成为了一个新热点。


参考文献

[1] Montenegro JD, Golicz AA, Bayer PE, et al. The pangenome of hexaploid bread wheat[J]. Plant Journal, 2017, 90(5):1007.

[2] Song JM , Guan Z, Hu J, et al. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus[J].Nature Plants, 2020, 6(1):1-12.

[3] Liu Y, Du H, Li P, et al. Pan-genome of wild and cultivated soybeans[J].Cell, 2020, 182(1).

[4] Bayer PE, Golicz AA, Scheben A, et al. Plant pan-genomes are the new reference[J]. Nature Plants, 2020, 6(8):1-7.