2025年基因组Masked作用

科技前沿 • 2025-03-28 21:35 • 阅读 56

大家好，我是讯享网，很高兴认识大家。

“Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.”

Masked 基因组，也叫 hard-masked DNA sequences，重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。

我们不建议你使用masked genome，因为它缺失了一些信息（如在比对结束后，有些unique序列并非真正的unique序列），无法保证100%的准确性和敏感性。此外，它可能会提高了falsely mapped reads的数量。

讯享网

soft-masked genome包含了用小写字母标记的重复序列，因此使用soft-masked genome可提高比对质量，且不会损害敏感性。但是应该注意，大多数比对工具都没有考虑到soft-masked区域，例如BWA，tophat，bowtie2等工具在比对时始终使用所有碱基，无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比，使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome，这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列，寻找重复序列和低复杂度区域。默认参数的情况下，会用‘N’替代。

例如：WES分析，我们建议使用最新的unmasked参考基因组。

一句话总结：用unmasked genome就可以了，使用最新版本的基因组时，需要看看相应的注释文件是否也已经更新。

2025年基因组Masked作用

相关推荐