GEO - Affymetrix CEL文件 CDF文件 R语言处理方法

GEO - Affymetrix CEL文件 CDF文件 R语言处理方法背景介绍 1 Affymetrix Affymetrix 的探针 proble 一般是长为 25 碱基的寡聚核苷酸 探针总是以 perfect match 和 mismatch 成对出现 其信号值称为 PM 和 MM 成对的 perfect match 和 mismatch 有一个共同的 affyID

大家好,我是讯享网,很高兴认识大家。

背景介绍:
1)Affymetrix:

     Affymetrix的探针(proble)一般是长为25碱基的寡聚核苷酸;探针总是以perfect match 和mismatch成对出现,其信号值称为PM和MM,成对的perfect match 和mismatch有一个共同的affyID。
     CEL文件:信号值和定位信息。
     CDF文件:探针对在芯片上的定位信息
      Affymetrix exon array :Affymetrix的外显子芯片
2)exonmap包:
      用来分析Affymetrix的外显子芯片(需要用到affy包)。(http://www.bioconductor.org/packages/2.0/bioc/html/exonmap.htmlhttp://rss.acs.unt.edu/Rdoc/library/exonmap/html/00Index.html
3) affy包:
     分析Affymetrix寡聚核苷酸芯片的包 (http://ugrad.stat.ubc.ca/R/library/affy/html/00Index.html)。
3)X:MAP数据库:
     利用Ensemble数据库和Affymetrix的注释数据,实现探针,外显子,基因,转录产物之间的转换。(http://xmap.picr.man.ac.uk)
4)CDF包:
      是Bioconductor的metadata包中的一种,从CDF文件中提取探针在芯片上的定位信息,然后存在CDF包中。更多的metadata包见:http://www.bioconductor.org/data/metaData.html。外显子芯片的CDF包可从http://xmap.picr.man.ac.uk/download/下载。

准备工作:
1)安装并导入包:exonmap,affy, CDF包(如:exon.pmcdf)。
2)数据(*.CEL文件)和数据描述文件(空白符分隔的文件,默认名为covdesc)放在一个文件夹中,并设置这个文件夹为R的当前目录。covdesc的第一列是CEL文件的名称,其它列是实验的描述信息(如:正常,疾病)。注意:covdesc的第一列没有列标题,而其它列有列标题。

数据分析:
1)读取数据:
      read.exon()函数用来读取CEL文件的数据;exon.pmcdf是Human的外显子CDF包;rma是affy包里的函数,用Robust Multi-Array Average expression measure方法把AffyBatch 格式的数据转换成exprSet。示例程序:
      raw.data <- read.exon()if (exists(raw.data)) { raw.data@cdfName <- "exon.pmcdf" x.rma <- rma(raw.data)} 
2)挑选差异表达的探针:
       pc()函数返回一个PC类的对象,包括两部分fc和tt,fc是log2 fold change,而tt是t检验的P值。示例程序:
       pc.rma <- pc(x.rma, "group", c("a", "b"))sigs <- names(fc(pc.exonmap))[abs(fc(pc.exonmap)) > 1 & tt(pc.exonmap) <1e-04] 
3)探针,外显子,基因,转录产物之间的转换:
     需要用到X:MAP数据库。示例程序:  
     xmapDatabase("Human")sig.exons <- probeset.to.exon(sigs)sig.genes <- probeset.to.gene(sigs) 

     函数probeset.details,exon.details,transcript.details 和gene.details可用来提取细节的注释信息。

4)探针过滤:
       探针根据其匹配到基因组上的次数和质量被分为四类,select.probewise()和exclude.probewise()函数可用来选择和去掉某类的探针。

示例程序:
       select.probewise(sigs, filter = "intronic")sigs.nomt <- exclude.probewise(sigs, filter = "multitarget") 
四类探针:
       "intronic": 匹配上1个基因,但没匹配上外显子。
        “exonic”: 在基因组上仅匹配上一次,且匹配上1个基因里的1个外显子。
         "multitarget":至少一个探针在基因组上有两次匹配。
         “intergenic”: 在基因组上仅匹配上一次,且没有匹配到基因。

5)基因的图形展示:
         plot.gene()函数用来图形展示基因,还可以根据信号值,fold change,t检验的P值使用不同的颜色。


讯享网

         其它的画图函数:plot.gene.graph(),gene.strip()。

[plain]  view plain  copy
小讯
上一篇 2025-03-09 13:25
下一篇 2025-01-29 20:56

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/21853.html