实用干货系列|如何对Hi-C数据进行过滤获得有效分析数据
2022.05.19

DNA在染色体上是高度折叠的,DNA与DNA片段之间存在一定程度上的交互作用形成三维空间结构,对基因组三维空间结构与功能的研究简称为三维基因组学。Job Dekker在2009年开发出Hi-C 技术,实现了全基因组范围内染色体片段间相互作用的捕获。


Hi-C技术原理


Hi-C技术原理.png


Hi-C数据过滤的流程


Hi-C数据过滤的流程.png


第一步


raw reads → clean reads,此步过滤流程与常规二代DNA文库过滤流程一致


去除接头污染的reads,如果接头污染的reads较多,则代表文库的插入片段过短;
去除低质量的reads,若该reads中测序质量值低的碱基占比较多,则该reads需要被过滤;

去除含N比例大于10%的reads,N碱基代表未被准确识别的碱基。


第二步


clean reads → Unique Mapped paired end reads

Unique Mapped paired end reads的全称为双端均唯一比对到参考基因组上的reads,该步骤主要过滤以下reads


两端均未比对到参考基因组的paired end reads;


有一端比对到参考基因组的paired end reads;


两端均比对到参考基因组上但并不是唯一比对到参考基因组的paired end reads,出现该类问题的原因主要由于参考基因组上重复序列较多,易出现多重比对的情况。 


在这一步中,我们还会进行一次NT库比对,确认测序物种即为目标研究物种。在比对过程中为了提升分析效率和数据可用率,动物截取PE50进行比对分析,植物截取PE100进行比对分析。


另外有些reads横跨酶切位点导致未能比对上参考基因组,对于未比对上的reads,如果能找到ligation-site(酶切之后文库的连接位点),那就截掉ligation-site之后的部分再次进行比对。


图:clean reads比对参考基因组流程[1].png


图:clean reads比对参考基因组流程[1]


第三步


Unique Mapped  paired end reads如何到valid reads(valid reads即为用于后续分析的有效reads)

有些reads虽然双端均唯一比对到参考基因组上,但本身是一些由实验误差所产生的错误reads或者距离很近影响互作效应鉴定结果的reads,需要对该部分无效reads继续进行过滤。下文将具体介绍各种无效reads类型。


图:双端均唯一比对到参考基因组上但为无效数据的reads类型.png


图:双端均唯一比对到参考基因组上但为无效数据的reads类型


Dangling End paired reads


这部分reads主要来源于同一个插入片段,且没有被T4连接酶连接但带有生物素修饰的片段,这部分序列不能体现染色质结构间的互作信息,故被过滤掉。

图:生物素悬挂在插入片段一端的无效序列.png


图:生物素悬挂在插入片段一端的无效序列


Self Circle End paired reads


这部分reads主要来源于同一个插入片段,这部分片段继续在T4连接酶的作用下发生自连成环,这部分序列同样不能体现染色质结构间的互作信息。


图:自连的无效序列.png


图:自连的无效序列


Dumped End paired reads


我们会对插入片段(Inter Size)进行预测(Reads1 比对起始位置到Reads1比对方向下游的第一个酶切位点的距离 + Reads2 比对起始位置到Reads2比对方向下游的第一个酶切位点的距离),如果预测的插入片段不符合试验测定的插入片段范围也会归为Dumped Pairs。这部分序列可能降低互作分析的效率,所以被过滤掉。


Duplication reads


一个是reads比对到基因组的位置与碱基完全一致,二是比对到参考基因组的方向完全一致,这种reads在二代测序中被认定为duplication reads。由于duplication reads的存在会影响分析准确度,所以需要被过滤。


Hi-C数据过滤与质控是Hi-C项目中非常重要的一步,相信通过上边的介绍,大家对于Hi-C数据过滤流程已经有了初步的了解。后期小编将会继续为大家带来Hi-C文库构建质控相关内容,敬请期待~


安诺优达


安诺优达作为业内三维基因组测序技术的引领者,2015年初首次在国内推出动物群体细胞Hi-C服务,随后将人类染色体三维构象解析分辨率提升至1 kb水平,同年12月在国内首次推出植物Hi-C服务。7年来,安诺Hi-C技术不断发展,助力众多研究者取得丰硕的成果。作为服务提供方,安诺优达与法国居里研究所、中国农业大学、中科院动物所、复旦大学、西南大学、南京医科大学等多家科研院所深度合作,相关研究成果已发表在Nature、Cell、Molecular Plant、Nature Plants、Nature Communications、Molecular Cell等国际高水平期刊。