2020年就要过去,全长转录组有哪些新的应用?
2020.12.25

全长转录组测序(Iso-seq)是借助PacBio三代测序平台长读长的优势,无需打断拼接,直接将转录本从5'到3'端完整测出,克服短读长测序拼接错误率高,无法获取完整转录本的难题。全长转录组在转录本的可变剪接、融合基因、可变多聚腺苷酸化等结构分析方面具有天然优势,那么基于长读长的全长转录组还有哪些新的应用方向呢,接下来小编来带您一探究竟~ 


应用一:鉴定等位基因的单体型表达

全长序列跨越多个SNP位点,长片段数据可以Isoform phasing的方式提供准确的具有较高特异性的单倍型信息,用于研究等位基因的特异性表达,准确区分转录本的父母本来源,为基因分型研究提供测序方案。

文献名称:Variant phasing and haplotypic expression from long-read sequencing in maize [1]

发表时间:2020.02

发表期刊:Communications Biology(4.165)

测序平台:PacBio Sequel,Illumina HiSeq 2500




主要研究结果


本文对玉米杂交子代的全长转录组进行研究,研究者选用温带系B73和热带系Ki11这两个玉米亲本系及其杂交系(B73 Ki11;Ki11 B73)分别进行PacBio SMRT测序,通过IsoPhase的SNP calling和全长序列单倍体重建模型对子代杂交系进行isoform分型从而获得等位基因的序列信息,结合二代数据精确定位亲本来源转录本在子代中的特异性表达。


1608857325830078.jpg

图1 IsoPhase进行等位基因单体型鉴定的工作流程


应用二鉴定复杂融合基因的等位基因不平衡表达

作为能够同时满足长读长和高准确率的测序方法,Iso-Seq能够在读取全长转录本的同时,更进一步的给出准确的SNP信息,在获得复杂的融合基因结构的同时以Isoform phasing的方式进行等位基因不平衡表达的研究。

文献名称:Long-read sequencing unveils IGH-DUX4 translocation into the silenced IGH allele in B-cell acute lymphoblastic leukemia [2]

发表时间:2019.06

发表期刊:Nature Communications (11.878)

测序平台:PacBio Sequel,Illumina NextSeq 500,10x Genomics




主要研究结果


IGH(Immunoglobulin Heavy Chain,免疫球蛋白重链)基因的易位与多种肿瘤疾病相关。其中与急性B淋巴细胞白血病(B-cell acute lymphoblastic leukemia, B-ALL)相关的为IGH-DUX4易位。而DUX4所处的区域不仅富含GC碱基,还伴随具有D4Z4重复序列,这使得以100-150 bp的NGS短读长测序技术往往难以进行深入的分析和研究。为了对IGH-DUX4的融合基因结构有一个更全面的了解,作者采用PacBio Iso-Seq方法,对功能性Igu,IGH-DUX4融合基因,以及反义DUX4的全长转录本进行鉴定。不仅确定了IGH- DUX4易位相关的全长转录本,还通过CCS的方式,准确的定位了全长转录本上SNP的类型,进一步研究了IGH等位基因的不平衡表达。


1608857351123644.jpg

图2 Nalm6细胞系中两个等位基因的DUX4和IGH基因表达图

功能性Igμ和反义DUX4由不同的等位基因表达。其中,IGHM基因座是具有三个SNP的二倍体,呈现IGH野生型的A-A-A与IGH-DUX4融合的T-G-G


应用三多组学结合分析高分辨率RNA转录组

人类启动子使用异常会导致多种疾病,包括癌症。但在植物中,对于精确TSSs和TESs的报道非常有限。利用Iso-seq结合CAGE-seq和PolyA-seq可以对5' UTRs和3' UTRs区域进行深入的研究,进一步分析CDS之外的重要序列变异。

文献名称: Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton[3]

发表时间:2019.10

发表期刊:Nature Communications (11.878)

测序平台:Pacbio RS II,Illumina Hiseq 3000




主要研究结果


本文以亚洲棉四个发育时期的16个组织为研究对象,整合了四种高通量NGS测序技术:Pacbio Iso-seq直接测定全长isoform,深度链特异性RNA-seq(ssRNA-seq)测序用于衡量表达量和剪接,CAGE-seq和PolyA-seq用于准确定义转录起始和聚腺苷酸化位点。研究者开发了一个高效的集成分析流程,以充分利用每种技术,并生成一个高分辨率的转录谱图。研究者发现并验证了棉花发育中不同的基因表达调控模式,包括选择性启动子使用、剪接热点和微外显子开关、聚顺反子和选择性聚腺苷酸位点选择。为进一步解码棉花纤维长度、品质等重要农艺性状的分子机制提供了重要的基础,为植物学家提供了新的研究视角。


1608857374865534.jpg

图3 针对亚洲棉高分辨率RNA转录组的多策略RNA-seq

A:整合基因亚型注释(IGIA)的实验设计和分析工作流程。BIGIA识别精确isoform策略示意图。C:每个基因isoform数目的分布。DCGPCottongenIGIA基因注释比较的维恩图。EFPKM分布,基因长度和低表达基因在基因亚群中的数量。FTSS(左侧,CAGE-seq)TES(右侧,PolyA-seq)IGIA和其他方法组装的TSS(左侧,CAGE-seq)TES(右侧,PolyA-seq)的峰值差异。G:仅由ToFUCGPTACOCottongenIGIA支持的唯一剪切junction数。HIGIA注释中棉花5'UTRCDS3'UTR、外显子和内含子的长度分布与其他7个品种的比较。ISNPIGIA基因复合体和外显子上的分布。


目前全长转录组研究已经在辅助基因组注释、生长发育调控机制、胁迫/抗逆调控机制、比较转录组等方向得到了很好的应用。随着PacBio平台测序通量不断增加,全长转录组测序成本大幅下降,相信全长转录组的研究和应用方向会越来越广泛,基于全长转录组的新应用方向也会不断涌现。



安诺基因拥有实力强大的测序服务平台,三代PacBio(7台Sequel II+10台Sequel)为您的科研之路保驾护航;安诺基因拥有成熟的实验技术、强大的生信分析团队和丰富的项目经验,期待与您的合作,助您的科研快速起飞!

参考文献

[1] Wang B, Tseng E, Baybayan P, et al. Variant phasing and haplotypic expression from long-read sequencing in maize[J]. Communications Biology, 2020, 3(1):78.

[2] Tian L, Shao Y, Nance S, et al. Long-read sequencing unveils IGH-DUX4 translocation into the silenced IGH allele in B-cell acute lymphoblastic leukemia[J]. Nature Communications, 2019, 10(1):2789.

[3] Wang K, Wang D, Zheng X, et al. Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton[J]. NatureCommunications, 2019, 10(1):4714.