简介
标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装
metaFlye: scalable long-read metagenome assembly using repeat graphs
杂志:Nature Methods
影响因子:30.822
发表时间:2020年10月05日
解读:很跩的土豆
编辑:很跩的土豆
导读:相对于二代测序中的短片段序列的组装,使用长序列测序技术组装细菌基因组有了很大的改进。然而,即使对于最先进的组装算法而言,组装复杂的宏基因组数据集的难度依然很大。在本文中,作者介绍了一款名为metaFlye的软件,可用于长序列数据组装,以探究细菌的组成和物种内的异质性。首先,使用模拟细菌菌群评价其组装效果,发现metaFlye的组装产物具有很好的序列完整性。其次,作者使用长序列测序技术检测了绵羊的微生物组并使用metaFlye组装了63个近似完整的细菌基因组的contig。最后,作者发现人的细菌基因组的长读长序列组装产物可用于发掘全长生物合成基因簇。
正文
1. 前言
相较短序列组装产物,长序列的组装产物对基因组的覆盖度更广。相反,长序列宏基因组研究中的得率更低,这使得获取高质量的组装产物较为困难。目前,有一些研究致力于优化长片段、高分子量DNA序列的提取技术;通过提高序列长度,增加长片段的序列覆盖度,以组装复杂的宏基因组序列。即使如此,仍没有专用的长序列宏基因组组装工具。某些组装工具虽然被用于宏基因组测序数据组装,但是工具在其设计阶段,并没有致力于处理宏基因组数据组装中的一些特有的难题,比如对于组成物种的高度不一致覆盖,长序列基因组内外的重复区域以及物种内和物种间的异质性。
长序列宏基因组组装产物可显著改善短序列组装产物的内在限制,比如可显著优化株水平的分辨率,检测水平基因转移,新门类的发现,新质粒、病毒的测序和生物合成基因簇的发现。长序列宏基因组组装工具能够优化长短序列混合组装的性能。
本文作者开发过一个快速的长序列基因组的组装工具——Fyle,该工具可产生准确、连续的大片段组装产物。在本文中,作者报道了一个metaFlye算法用于长片段宏基因组序列组装。使用模拟菌群、真实菌群对该工具进行评价,结果表明该工具性能优于Canu、FALCON、miniasm、OPERA-MS和wtdbg2。
2. 结果
2.1 组装产物覆盖度
Flye算法适用于单一基因组的组装。首先,计算出性能**的K-mer值,将其作为组装过程中设置的固定K-mer值。随后,使用该固定K-mer值检测重复序列并组装成更长的片段。然而,在宏基因组中,这种方法只适用于高丰度的物种,而对于低丰度的物种会得到一个更低的固定K-mer值,这会导致组装失败。因此,metaFlye采用一种不同于设置固定K-mer的方法,而是通过计算局部K-mer分布构成一个全局K-mer。这种metaFlye的算法可检测宏基因组组装草图中的重复区域,能够高效地检测组装基因组中高度不一致的序列分布(图1a)。
图1. metaFlye重复注释流程和基因组简单气泡架构、超级气泡架构和环路结构
Fig. 1 | metaFlye repeat annotation and examples of simple bubbles, superbubbles and roundabouts

a,不同基因组类型构成的组装草图;重复边、单边分别使用彩色和黑色线条展示,metaFlye可将X、Y、Z边鉴定为重复边。b,两个物种序列构成的简单气泡结构。c,三个物种序列构成的超级气泡结构。d,两个物种序列构成的环路结构,其中一条序列与另一条宏基因组组装产物的某些不同区域具有重复。
2.2 组装多个相似细菌基因组
种株水平的细菌基因组种,共有序列和特有序列常形成一个简单气泡结构(图1b)或超级气泡结构(图1c),或者某些株的基因组与一些其他不相关的基因组共有一段重复序列,而形成环路结构(图1c)。与单型体(haplotype)识别的组装算法相似,这些株诱导形成的重复图种的子图需要被检测、简化,以产生准确的、连续的宏基因组组装产物。本文方法部分有具体描述metaFlye如何检测和简化这些子图。
2.3 不同组装软件对于SYNTH181数据集的组装效果
图2,不同组装软件(Canu, Flye, metaFlye, miniasm和wtdbg2)对于SYNTH181数据集中宏基因组数据样本进行组装的效果评估
Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset

数据集中181个参考基因组的组装片段、NGA50值分布(NGAx 值是NGx组装断点的contig统计值)。NGA50值<10kbp或对于参考基因组的覆盖度<50%时不展示结果。总结起来,77(metaFlye)、141(Flye)、109(Canu)、106 (miniasm) 和109 (wtdbg2)个NGA50值被过滤掉。
2.4 不同组装软件对于人类微生物组计划数据集的组装效果
表1 不同组装软件对于数据集的组装效果评估


2.5 Zymo数据集的组装
图3,使用metaQUAST对不同组装软件组装模拟菌群数据集序列的组装覆盖度和NGA50值统计
Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST

2.6 绵羊肠道微生物宏基因组数据组装
图4,metaFlye组装完成的绵羊宏基因组物种信息
Fig. 4 | Information about strains in the sheep microbiome revealed by metaFlye.

2.7 人类肠道微生物宏基因组数据组装
表2 对真实宏基因组数据集的组装效果

2.8 人类肠道微生物组装产物中新的生物合成基因簇

总结:长序列宏基因组在解析复杂细菌菌群中具有很好的前景,但是其组装等步骤仍然面临很大的算法问题。metaFlye相较Canu,对于HMP和Zymo模拟菌群的组装产物具有更好的序列相似性和组装质量。相较miniasm、wtdbg2和FALCON,metaFlye和Canu对于大多数模拟菌群数据集的装配效果都有所改进。此外,只有metaFlye和wtdgb2能够组装PromethION测序产生的150Gbp规模的长序列数据,但是wtdbg2的组装产物片段化更显著。
参考
[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面

点击阅读原文,跳转最新文章目录阅读
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/31317.html