技术解读｜RRBS测序中因酶切人为引入碱基问题

大家好，我是讯享网，很高兴认识大家。

前言

我们都知道，研究哺乳动物DNA甲基化最常用的、性价比最高的技术就是RRBS技术了。RRBS技术是基于酶切富集CG位点的，在建库过程中往往会因补平酶切的粘性末端而人为引入碱基。这时候酶切处引入的人工C碱基如果不处理的话，将会影响这些位点甲基化水平的计算。今天小编将会从酶切引入碱基的过程入手，带大家一步步分析其中的缘由，最后给出解决人工引入碱基问题的办法。

在常规RRBS 建库过程中，在补平酶切接口时会引入人工的CG 序列，这两个序列在read1 中CT 转化会变成3’TG,在read2中GA 转化会变成5’CA，故需要去除，以免影响这个位置C 碱基甲基化水平的计算。
在双酶切RRBS 中，在补平酶切接口时会引入人工的CG 和CWG 序列，read1 中CT 转化会变成3’TG和3’TWG,在read2 中 GA 转化会变成5’CA 和5’CWA，故需要去除，以免影响这个位置C 碱基甲基化水平的计算。

为什么是如此去除？具体分析见下文：

单酶切RRBS

单酶切RRBS技术采用的是MspI 单酶切建库，MspI的酶切位点如下：
在这里插入图片描述
讯享网
我们回顾一下单酶切RRBS 建库过程：

我们分析一下整个建库过程中酶切位点周围的碱基变化：

由此可见，最后测序得到序列中，人工序列有(不计算末端A 和T)：
read1：
3’TG
read2：
5’CA 3’CA
是不是都要去除？
实际上read2 的3’CA 虽然是人工序列，却并不影响原始链（W 链
和C 链）中5’CGG 中C 碱基甲基化水平的计算（请仔细推敲）。
这也是为什么酶切了这段DNA 却不影响这几个位点甲基化水平计算
的原因。
故，单酶切RRBS 数据预处理，在去除接头污染之后，还要去除：
read1 的3’TG
和
read2 的5’CA
cutadapt 实现：
cutadapt
-a AGATCGGAAGAGC -A AGATCGGAAGAGC
-a TG$ -G ^CA
-n 2
-o trimmed.1.fastq.gz -p trimmed.2.fastq.gz
reads.1.fastq.gz reads.2.fastq.gz
说明：
小写-a和-g表示切read1接头，大写-A和-G表示切read2接头
-a 表示切3’接头，-g表示切5’端接头
-n 表示对read最多需要剪切2 次
前两个接是illumina通用接头的共同前缀部分，红色字体的A正是表示切补平
后末端加的A
后面两个是上文说的RRBS需要切掉的碱基。

双酶切RRBS

有的同学可能没听过双酶切RRBS，说到这个技术小编不免瞬间自豪
感爆棚，这是易基因现任实验研发部门负责人领衔开发的技术哦！
它是一种基于常规RRBS 开发的技术，相比单酶切RRBS，能覆盖C
位点更多更全面，性价比更高！关于双酶切技术的论文可以到本文
末尾查看。
双酶切RRBS采用的是MspI 和 ApeKI双酶切建库，这两种酶的酶切位点如下：
在这里插入图片描述

W表示A或T

单MspI 酶切
5’-C|CGG=C|CGG-3’ （W 链）3’-
GGC|C=GGC|C-5’ （C 链）
2.单ApeKI 酶切
5’-G|CWGC=G|CWGC-3’ （W 链）3’-
CGWC|G=CGWC|G-5’ （C 链）
3.MspI+ApeKI 双酶切
5’-G|CWGC=C|CGG-3’ （W 链）3’-
CGWC|G=GGC|C-5’ （C 链）
4.ApeKI+MspI 双酶切
5’-C|CGG=G|CWGC-3’ （W 链）3’-
GGC|C=CGWC|G-5’ （C 链）
不考虑加A 的影响，
第二种的变化为：
补平：
5’-CWGC=GCWG-3’ （W 链）3’-
GWCG=CGWC-5’ （C 链）
BS 转化：
5’-TWGT=GTWG-3’ （BSW 链）3’-
GWTG=TGWT-5’ （BSC 链）
PCR:
5’-TWGT=GTWG-3’ （BSW 链） —read13’-
AWCA=CAWC-5’ （BSWR 链）—read2

5’-CWAA=ACWA-3’ （BSCR 链）—read23’-
GWTG=TGWT-5’ （BSC 链) —read1
同样，人工加入的序列有：
read1 的：3’TWG
read2 的：5’CWA 和3’CWA
但是由于read2 的3’CWA 是原始非人工序列互补而来的，所以它
不影响原始W 和C 链5’CWG 中C 碱基甲基化水平的计算。
所以需要去除的序列是：
read1 的：3’TWG
read2 的：5’CWA

第三种的变化为：
补平：
5’-CWGC=CCG-3’ （W 链）3’-
GWCG=GGC-5’ （C 链）
BS 转化：
5’-TWGT=TTG-3’ （BSW 链）3’-
GWTG=GGT-5’ （BSC 链）
PCR:
5’-TWGT=TTG-3’ （BSW 链） —read13’-
AWCA=AAC-5’ （BSWR 链）—read2
+
5’-CWAC=CCA-3’ （BSCR 链）—read23’-
GWTG=GGT-5’ （BSC 链) —read1

同样，人工加入的序列有：
read1 的：3’TG 和 3’TWG
read2 的：5’CWA 和CA，3’CWA 和CA
但是由于read2 的3’CWA 和3’CA 不影响原始W 链5’CWG 和C
链5’CG 中C 碱基甲基化水平的计算。
所以需要去除的序列是：
read1 的：3’TG 和 3’TWG
read2 的：5’CWA 和 5’CA

第四种PCR 后得到的序列为：
5’-TGG=GTWG-3’ （BSW 链） —read13’-
ACC=CAWC-5’ （BSWR 链）—read2
+
5’-CAA=ACWA-3’ （BSCR 链） —read23’-
GTT=TGWT-5’ （BSC 链）—read1
同样，人工加入的序列有：
read1 的：3’TG 和 3’TWG
read2 的：5’CWA 和CA，3’CWA 和CA
但是由于read2 的3’CWA 和3’CA 不影响原始W 链5’CWG 和C
链5’CG 中C 碱基甲基化水平的计算。
所以需要去除的序列是：
read1 的：3’TG 和 3’TWG
read2 的：5’CWA 和 5’CA
总结以上分析结果，得出结论：
双酶切RRBS 需要去除的序列是：
read1 的：3’TG 和 3’TWG
read2 的：5’CWA 和 5’CA

cutadapt 实现：
cutadapt
-a AGATCGGAAGAGC -A AGATCGGAAGAGC
-a TG$ -a TAG$ -a TTG$
-G ^CA -G ^CAA -G ^CTA
-n 2
-o trimmed.1.fastq.gz -p trimmed.2.fastq.gz
reads.1.fastq.gz reads.2.fastq.gz
说明：
小写-a和-g表示切read1接头，大写-A和-G表示切read2接头
-a 表示切3’接头，-g表示切5’端接头
-n 表示对read最多需要剪切2 次
前两个接是illumina通用接头的共同前缀部分，红色字体的A正是表示切补平
后末端加的A
后面一个是上文说的双酶切RRBS需要切掉的碱基，每一行所列要切的序列之
间是“或”的关系，故最多切2 次，n 设置为2。
双酶切RRBS技术论文：Wang et al. BMC Genomics 2013, 14:11
http://www.biomedcentral.com/1471-2164/14/11

技术解读｜RRBS测序中因酶切人为引入碱基问题

相关推荐