2025年基因组Masked作用

基因组Masked作用Masked soft masked 和 unmasked Ensembl 参考基因组有三大类 masked soft masked and unmasked 一般而言 比对的时候推荐使用 unmasked 参考基因组 Masking 用于检测和隐藏散布的重复序列和低复杂度的 DNA 区域 以便可以使用比对工具对其进行正确处理 Masking

大家好,我是讯享网,很高兴认识大家。

“Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.”

Masked 基因组,也叫 hard-masked DNA sequences,重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。

我们不建议你使用masked genome,因为它缺失了一些信息(如在比对结束后,有些unique序列并非真正的unique序列),无法保证100%的准确性和敏感性。此外,它可能会提高了falsely mapped reads的数量。


讯享网

soft-masked genome包含了用小写字母标记的重复序列,因此使用soft-masked genome可提高比对质量,且不会损害敏感性。但是应该注意,大多数比对工具都没有考虑到soft-masked区域,例如BWA,tophat,bowtie2等工具在比对时始终使用所有碱基,无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比,使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome,这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列,寻找重复序列和低复杂度区域。默认参数的情况下,会用‘N’替代。

例如:WES分析,我们建议使用最新的unmasked参考基因组。

一句话总结:用unmasked genome就可以了,使用最新版本的基因组时,需要看看相应的注释文件是否也已经更新。

小讯
上一篇 2025-03-29 13:09
下一篇 2025-02-09 10:19

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/47001.html