干货!Hi-C辅助组装知识大放送
2020.07.15

目前的二代+三代测序技术只能将基因组组装至Contigs/Scaffolds水平,无法展示完整的基因组信息,需借助遗传图谱、Hi-C技术等对基因组草图进行进一步提升。Hi-C辅助组装由于操作简便,准确性高,已成为辅助基因组组装的主流技术。那么,Hi-C究竟如何辅助基因组组装?结果文件如何解读?今天,小编就和大家分享一些Hi-C辅助组装小知识,让你轻松看懂“Hi-C辅助组装”~


Hi-C数据分析流程

甲醛交联后的样本经酶切、生物素标记、平末端连接、DNA纯化提取、超声打断后,钓取含有生物素的嵌合DNA片段进行文库构建,基于illumina平台进行测序,原始下机数据经质控后获得Clean reads。随后,依据物种类别对Clean reads进行相应截取,基于截取后的Clean reads开展后续分析(图1)。

1594802954953677.jpg

图1 Hi-C数据分析流程图


参考基因组、酶切位点比对


将截取后的Clean reads与参考基因组、酶切位点比对,去除未能比对到参考基因组或酶切位点的reads(Unmapped reads)、只有一端序列能比对到基因组中的Singleton reads(单端比对)、一端序列比对到两个或两个以上位点的Multi mapped reads(多重比对),获得双端均能比对上的Unique mapped reads用于互作分析(图2)。

1594803010938709.jpg

图2 Hi-C数据比对示意图


Valid reads获取


由于Hi-C文库的构建具有一定的复杂性,在Hi-C中,仅有两个来源不同的酶切片段连接在一起才会被认为是标准的文库片段,但在实际建库过程中可能会产生多种分子类型,导致测序过程中可能还会产生Dangling reads、Self circle、Dumped reads等Invalid reads。此外,由于Hi-C建库过程中需要进行PCR扩增,使得下机数据中还可能会存在重复reads,即Duplication reads(图3)。因此,在获取Unique mapped reads后,除了要过滤掉Invalid reads,识别真正有效的Interaction reads,还要去除PCR产生的Dup,才能获得最终用于互作分析的Valid reads(图1)。

1594803065603178.jpg

图3 测序产生的不同类型reads[1]


聚类、排序、定向


进行辅助组装时,首先会将存储三代数据的bam文件和等位基因的Contigs列表文件输入,通过prune修剪掉核酸片段间的一些平行信号和弱信号,随后采用层级聚类算法,将Contigs划分到不同的染色体群组中,并对每个组中的Contigs进行排序和定向,最终构建获得染色体水平的基因组。

1594803224828736.jpg

图4 Hi-C辅助组装分析流程[2]


基因组完整性、准确性评估


在辅助组装中,会以挂载率来评价组装基因组的完整性,其计算方式为:挂载率=聚类的碱基数/基因组草图碱基数)×(定向的碱基数/聚类的碱基数),基因组的挂载率一般都在90%以上。与此同时,还会通过热图来评估组装基因组的准确性。通常情况下,染色质片段间的交互强度会呈现出随距离衰减的规律,若热图中存在明显独立的强互作分群,且分群之间的互作关系显著弱于各自内部的互作强度,则可能存在聚类错误(图5a);如果远距离bin之间的互作强于近距离互作,表明可能存在排序错误(图5b);如果对角线附近较多的bin与邻近bin弱互作而与较远端存在强互作,则暗示组装基因组中可能存在冗余片段,后续可以对组装基因组进行去冗余(图5c)。

1594803276451137.jpg

图5 聚类(a)、排序(b)错误及冗余(c)示例


总 结


借助Hi-C辅助组装不但能够获得染色体水平的基因组,还可以通过纠错提升组装基因组的质量和连续性,判断基因组中是否存在冗余,进一步优化组装结果;对于超大基因组和多倍体物种,也可以实现有效挂载及单体型分析,获得高质量的参考基因组。


参考文献
[1] Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome Biology, 2015, 16(1): 259.
[2] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature Plants, 2019, 5(8): 833-845.