RNA长读长测序:PacBio与ONT双平台综合对比
2019.08.30

自长读长测序技术问世以来,PacBio SMRT与Nanopore测序之间的较量从未停息过。凭借超长读长和单分子测序的优势,两个平台纷纷弥补了二代测序技术的局限性,如读长短、存在PCR扩增偏好性等,为基因组研究提供了全新的手段和分析策略,极大推动了基因组学研究的发展。

但是,PacBio与ONT在不同应用领域也是互有长短,对于RNA测序来说,两个平台的表现如何呢?您且往下看。


Base calling 原理对比

首先来看一下两个平台在base calling 原理上的区别。

PacBio测序基于荧光标记的原理,荧光信号实时拍摄记录,所有数据都具备单碱基的信号,因此可以获得具有单碱基分辨率的高准确度序列

PacBio测序:单碱基分辨率[1]

ONT则是基于电信号原理,在DNA分子穿过纳米孔时会输出电流信号的波形图,但因电流速度太快,一次产生的信号包含4-5个碱基, 就需要对信号进行碱基解码(decoding)。由于单个信号可以产生45= 1024 种组合,且噪音信号和随机数据都会干扰碱基读取,解码时容易出现delete和insert的错误

Nanopore单信号包含4-5个碱基,容易出现解码错误[2]
此外,ONT Base calling的方法依靠machine learning,需要基于不同的模型(model)进行学习。目前base calling的软件(basecaller)也多种多样、表现各异,不同软件得到的结果相去甚远。即使利用同一个软件、同一套数据,如果更换模型的版本,都会输出不同的结果,通过下图不难发现,基于不同的学习模型, 结果在read和consensus准确性上有很大差异。


ONT basecaller多种多样,不同软件在read和consensus准确性上相去甚远[3]


错误类型对比

PacBio和ONT的单次测序错误率都比较高,在10-12%左右,目前几乎是单分子测序技术的通病。但当达到足够的测序深度时,绝大多数测序错误都可以被修正,因此真正影响序列准确率的其实是测序的错误类型。

PacBio发生随机错误,错误不会总发生在同一个位置,可通过自身纠错获得准确度高达QV50(99.999%)的序列。

而ONT发生的则是系统错误,总发生在同样的区域,有些区域由于二代测序也很难覆盖到,所以利用二代数据也无法纠错、校正,因此错误会一直残留到最终的序列结果中, 故而难以区分序列错误和真实突变。

1567127115479124.png

PacBio发生随机错误,可自身纠错[4]

image.png

ONT发生系统错误,会一直保留到最终的序列结果中,无法纠错


错误偏好性

PacBio在测序错误上没有明显的偏好性,即使在高低GC区域,也能实现均匀覆盖。

image.png

PacBio无明显错误偏好性[4]

ONT技术在测序错误上则存在明显的偏好性。在同聚物和串联重复区域会出现deletion错误,即当有5个以上相同碱基出现时,ONT往往会在这个区域形成deletion错误,且deletion的长度不定,尤其是在poly A区域。例如在R9.4.1试剂中仍存在明显的homopolymer deletion(同聚物删除)问题。因此ONT数据在这些地方检测到的结构变异可信度较低。文献中往往会将很大比例(>80%)来自这一区域的结构变异数据舍弃,从而对后续的结构变异分析造成非常大的数量限制。

image.png

同聚物和串联重复区域—ONT的deletion错误率高,甚至高达100%[5]

其次,在高GC区域,deletion和mismatch错误率也会显著增加,出现明显的GC bias现象。

1567127406509268.png

ONT的deletion和mismatch错误在高GC区域显著增加[5]


全长转录本检测能力

PacBio的 Iso-Seq在识别全长转录本时,会确保其完整的插入片段序列具有以下特征:包含5’primer、3’primer,且3’primer前存在poly A序列。

当到达足够的测序深度时,PacBio能检测出更多全长转录本和新转录本,而ONT则对非全长转录本的检出比例更高,暗示其检测到非常多的转录本其实是不完整的。这与ONT在发现同聚物时出现的deletion错误有很大关系, 严重影响了其识别全长转录本polyA尾的能力,所以ONT可获得的完整转录本数量大大降低。

1567127526206836.jpg


足够的测序深度下,PacBio能检测到更多全长转录本(注:两图纵坐标轴不同)[6]


数据重复性比较

PacBio的Iso-Seq在基因表达水平和可变剪切水平都有着极佳的数据重复性。利用GM12878细胞系进行生物学重复检测,即使在可变剪切水平,其Pearson相关性系数依然高达0.86。而ONT平台的数据则较差,分别仅为0.68和0.38,因此ONT平台在转录本定量方面的准确性和可重复性还有待讨论。
image.png
PacBio在基因表达、可变剪切水平的数据重复性更佳[6]

当然,Nanopore测序也有很多PacBio无法比拟的优点,如读长更长,可达Mb级别、direct RNA测序虽然还不成熟,但有希望直接检测RNA表观修饰、并直接进行转录本定量等。

目前RNA长读长测序主要应用于探究物种的转录组复杂性、辅助基因组注释、探究不同处理条件下的转录本差异、发现肿瘤等疾病中的基因结构变异等。综合多篇文献的数据来看,PacBio平台无论在base calling原理、测序错误类型、无错误偏好性,还是在检测全长转录本的能力、数据可重复性上都有更优质的表现,更适合进行RNA长读长测序,以获得序列准确性更高、数据可信度更佳的测序结果。

自2017年推出三代测序服务以来,安诺优达先后引进了10台PacBio Sequel和4台Sequel II测序仪,产品服务类型涵盖三代基因组组装、人重测序、动植物重测序、全长转录组测序等,累计完成三代项目超800+。2019年7月,安诺优达测序实验室又荣获PacBio官方认证测序服务商证书。安诺优达将秉承客户至上的服务理念为合作伙伴提供更快速、更优质的三代测序服务。


参考文献


[1] Flusberg Benjamin A., Webster Dale R., Lee Jessica H., Travers Kevin J., Olivares Eric C., Clark Tyson A., Korlach Jonas., Turner Stephen W., (2010). Direct detection of DNA methylation during single-molecule, real-time sequencing[J], Nat. Methods, 7, 461-5.
[2] Magi Alberto., Semeraro Roberto., Mingrino Alessandra., Giusti Betti., D'Aurizio Romina., (2018). Nanopore sequencing data analysis: state of the art, applications and challenges[J], Brief. Bioinformatics, 19, 1256-1272.
[3] Wick Ryan R., Judd Louise M., Holt Kathryn E., (2019). Performance of neural network basecalling tools for Oxford Nanopore sequencing[J], Genome Biol., 20, 129.
[4] Wenger Aaron M,Peluso Paul,Rowell William J et al. , (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome[J], Nat. Biotechnol., undefined, undefined.
[5] Cretu Stancu Mircea,van Roosmalen Markus J,Renkens Ivo et al., (2017). Mapping and phasing of structural variation in patient genomes using nanopore sequencing[J], Nat Commun, 8, 1326.
[6] Wyman, Dana, et al. A technology-agnostic long-read analysis pipeline for transcriptome discovery and quantification[J], BioRxiv (2019): 672931.




在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980