文章解读 | 三代宏基因组测序探究人类肠道中染色体外的可移动基因元件
2020.12.14

目前宏基因组研究主要是通过二代测序来进行研究,随着三代测序技术的发展,PacBio SMRT测序技术应用场景越来越广泛。与二代测序方法相比,采用PacBio SMRT长读长测序技术的三代宏基因组可以减少部分拼接错误,提高基因组组装注释的准确性和微生物群落鉴定的分辨率。接下来就通过一篇文献跟着小编一起来看下三代宏基因组测序的具体应用吧~


1607910676418302.jpg


长读长宏基因组测序探究人类肠道中染色体外的可移动基因元件



发表期刊:Microbiome

发表时间:2019.08

影响因子:10.465

研究单位:东京大学




研究背景



微生物群落的宏基因组主要由细菌染色体和相关的染色体外移动基因元件(eMGEs)组成,如质粒和噬菌体(phages)。由于eMGE之间以及eMGE和染色体之间存在的同源序列,短读长的从头组装易产生明显偏短的contigs,组装很难将完整的eMGEs拼接成环,与短读长从头组装比,长读长的从头组装更容易产生更长的contigs。目前还没有关于人类肠道eMGEs深入的宏基因组学研究,人类肠道eMGEs有待深入研究。




研究思路




1.8.jpg




研究结果



1. PacBio SMRT对人类粪便样本进行宏基因组测序


对12名健康的日本成年人的13份粪便样本的DNA进行了PacBio宏基因组测序。平均每个样本的数据量为11 GB,平均subreads的长度为8 k。分别使用Falcon和MegaHit进行PacBio和短读长的从头组装,对比两者结果发现,PacBio提高了组装效果,N50 contig长度达到~202 kb,而短读长为~4 kb(图1a)。根据PacBio contig与相应短读长contig之间的序列一致性来评估PacBio contig的准确性,5、10、20和≥40测序深度的PacBio contig与短读长contig的一致性分别为99.4%、99.7%、99.8%和≥99.9%(图1b)。

1.2.jpg

图1 PacBio和Illumina测序组装数据统计
a. PacBio 和Illumina组装contig长度统计对比;b. PacBio 和Illumina组装contig相似性对比

2. PacBio宏基因组数据中的微生物和基因组成


PacBio和MiSeq两种数据在属水平上估计的微生物丰度非常相似,皮尔逊相关系数的中位数为~0.99,显著高于12个个体之间的相关系数(图2d)。PacBio contig的平均基因长度为847 bp,比短读长contig的662 bp长,更接近参考基因组中大多数全长基因的957 bp。每个PacBio contig平均鉴定出27.6个基因,是平均每个短读长contig鉴定出基因数的10倍。

1607910744820455.jpg

图2 PacBio和MiSeq数据中微生物丰度的皮尔逊相关系数


3. 从PacBio组装序列中生成环形的contig


总共生成了82个环形contigs(circular contigs,CCs),其中11个归类为噬菌体,71个归类为质粒。其中58种质粒和6种噬菌体为新发现,另外5个噬菌体与已知的crAssphage基因组(NC_024711.1)高度相似。聚类分析表明大部分质粒与厚壁菌和拟杆菌的亲缘关系较近(如图3)。

1.4.1.jpg

图3 71个质粒CCS和114个人类肠道中已知质粒的系统发育进化树
绿色为厚壁菌,紫色为放线菌,红色为变形杆菌,蓝色为拟杆菌,黄色为其他门,灰色为未知

4. 与crAssphage基因组高度相似的contigs结构


包括NC_024711.1在内的6个crAssphage的基因组编码89-91个可能的基因,其中61个高度保守,具有≥80%的氨基酸同源性;每个基因组特有的基因数量在0-16个之间,平均每个基因组为6.3个基因,其他保守基因在2-5个之间(图4)。

1.5.jpg

图4 5个crAssphages和NC_024711.1的基因组结构示意图
棕色基因为特有基因,而蓝色基因为所有基因组共有基因


5. 使用来自五个国家的413个宏基因组数据集对肠道eMGEs进行量化分析


在来自五个国家的413个肠道宏基因组的数据集(IGCJ)中,许多已鉴定的质粒是高度丰富和普遍存在的。质粒数据显示,肠道质粒的比例是公共数据库中的两倍多。在该宏基因组数据集中,质粒的数量平均是细菌染色体的三倍。宿主预测表明,与微生物丰度无关,类杆菌相关的质粒占主导地位。

1.6.jpg

图5 IGCJ数据集中eMGEs的定量分析


6. 宏基因组数据集肠质粒功能图谱


对IGCJ数据库中相对丰富的315个质粒和249条染色体的功能注释表明,360个COGs在丰度上存在显著差异(q值<0.05)。无机离子代谢、防御机制以及分泌功能在质粒中比染色体相比显著丰富。相反,染色体中与碳水化合物代谢有关的功能明显高于质粒。

1.7.jpg

图6 质粒和染色体中COG类型的比较




文章小结



本研究展示了从PacBio长读长宏基因组数据中有效识别完整环形eMGE或contigs。对12份粪便样品进行组装,得到82个contigs(2.5 kb-666.7 kb),包括71个质粒和11个噬菌体,其中58个为新质粒和6个为噬菌体,以及5个不同的crAssphage全基因组序列。类杆菌相关的质粒占主导地位,同时发现了几种丰富的质粒功能,如无机离子转运,抗生素耐药性基因大多存在于低丰度变形杆菌相关的质粒中。长读长测序的宏基因组学为探索人类肠道中未知的eMGE提供了一种有效的方法,积累的数据为深入了解人类肠道微生物生态提供了重要资源。


作为国内基因组行业知名企业,安诺基因拥有实力强大的测序服务平台,配备系列先进仪器设备,三代PacBio(7台Sequel II+10台Sequel)为您的科研之路保驾护航;三代宏基因组组装效果更佳,可提高样本中物种基因的完整度,同时提高注释的准确度和分辨率,注释到更多的低丰度物种。安诺基因已与中国农业大学、中科院遗传与发育所、中国海洋大学、中国农业科学院、福建农林大学等多家科研院所开展了深度合作,助力基因组文章发表于Nature、Nature Plants、Nature Communications、Molecular Plant、Communications Biology、The Plant Journal等多个国际高水平期刊。

图片

参考文献

[1] Suzuki Yoshihiko,NishijimaSuguru,Furuta Yoshikazu et al. Long-read metagenomic exploration ofextrachromosomal mobile genetic elements in the human gut[J]. Microbiome, 2019, 7:119.