“Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.”
Masked 基因组,也叫 hard-masked DNA sequences,重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。
我们不建议你使用masked genome,因为它缺失了一些信息(如在比对结束后,有些unique序列并非真正的unique序列),无法保证100%的准确性和敏感性。此外,它可能会提高了falsely mapped reads的数量。
soft-masked genome包含了用小写字母标记的重复序列,因此使用soft-masked genome可提高比对质量,且不会损害敏感性。但是应该注意,大多数比对工具都没有考虑到soft-masked区域,例如BWA,tophat,bowtie2等工具在比对时始终使用所有碱基,无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比,使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome,这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列,寻找重复序列和低复杂度区域。默认参数的情况下,会用‘N’替代。
例如:WES分析,我们建议使用最新的unmasked参考基因组。
一句话总结:用unmasked genome就可以了,使用最新版本的基因组时,需要看看相应的注释文件是否也已经更新。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/47001.html