HiFi reads,挑战基因组组装不可能
2020.08.20

继PacBio推出HiFi组装的多个研究成果后,国内首篇基于HiFi组装的基因组文章也于今年5月见刊Nature Communication[1],开启了HiFi组装的新风潮,你是不是也心动了呢?上次小编给大家介绍了一些关于HiFi组装的小知识,今天继续和大家分享关于HiFi组装的那些事儿~



为什么要用HiFi reads进行基因组组装?


所谓HiFi组装,是从三代测序下机的原始Subreads中调取聚合酶绕插入片段圈数大于3圈的Subreads互相校正,获得高准确度的HiFi reads用于基因组组装。相对于CLR组装的高深度(100X subreads),HiFi模式直接用高准确度的HiFi reads进行基因组组装,较低的测序深度(25X)即可获得高质量的参考基因组。因用于基因组组装的数据量较小,组装过程中所需的计算资源也较少。而且,由于HiFi reads本身具有较高的准确度,不再需要用二代数据对三代组装的基因组进行校正(图1),大大缩短了组装周期。


1597885105444147.jpg

图1 HiFi组装(a)和CLR组装(b)流程图



HiFi reads组装有多快?

基于HiFi reads,PacBio用6 h、1 d和6 d时间完成了2.5 Gb、11 Gb及47.7 Gb超大基因组的组装。如此亮眼的数据,你是不是也想拥有?近来,安诺生信的小伙伴利用25X的HiFi reads,仅用6 h就完成了某二倍体植物1.0 Gb大小基因组的组装,3 d完成了4.8 Gb大小基因组的组装,组装周期大大缩短。

表1 HiFi组装结果展示

1597885212249375.jpg

注:表中玉米、燕麦、红杉数据来源于2020年PAG大会及PacBio官方公布数据,某植物1和2为安诺项目经验数据。



HiFi组装基因组的连续性与CLR差别会不会很大?


相对于CLR模式30 Kb的插入片段,HiFi模式插入的DNA片段相对会短一些,测序产生的Subreads和用于组装的CCS reads也相对会短。那么,HiFi组装基因组的连续性会不会不如CLR?安诺用实际项目经验告诉您:并不会!普通二倍体植物的Contig N50多在10 Mb以上,多倍体植物的Contig N50也达到了8 Mb,基因组的完整性均在96.9%以上,HiFi组装基因组完整性和连续性均可与CLR模式相媲美。


表2 HiFi组装项目经验

1597885389159096.jpg



HiFi组装基因组的单碱基准确度有保障么?


CCS reads本身经过孔内纠错校正,单孔内CCS reads的准确度可达99%以上,再经过一定深度的数据覆盖进行校正,基因组组装、质量能够达到更高。那么,组装基因组的单碱基准确度究竟如何呢?近来,我们利用高深度的illumina短reads,以HiFi组装的基因组作为参考基因组,来检测基因组中的纯合SNP数目,平均每668.8 Mb才检测到一个SNP,单碱基准确度达到了99.999%以上。可见,HiFi reads用于基因组组装可有效保障基因组的准确度。


表3 单碱基准确性统计

1597885342702736.jpg



总 结


PacBio CCS模式作为目前唯一可提供高准确度长读长的测序技术,可获得测序精度99%以上的HiFi reads,以少量的数据(25X)为研究人员带来准确且有价值的信息:不仅能够为基因组组装提供准确的序列信息,还使得后续的运算和分析的流程更为简单,耗费的计算资源更少。


自推出三代测序以来,安诺基因先后引入了10台PacBio Sequel和7台PacBioSequel II,打造了先进的三代测序平台,日均产出数据量超2 Tb,产品服务类型涵盖了基因组组装、人重测序、动植物重测序、全长转录组等多种三代测序产品,累计项目经验800+。高质量的测序数据、快速的分析周期,安诺优达一直秉承客户至上的服务理念,为合作伙伴提供更快速、更优质的三代测序服务,期待您的垂询~


参考文献

[1] Chen H, Zeng Y, Yang Y, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa[J]. Nature Communications, 2020, 11(1)