2025年GSEA和KEGG以及GO的区别

GSEA和KEGG以及GO的区别表达差异矩阵 当产生的表达差异矩阵后 做后续的分析 1 KEGG 是通路富集分析 2 GO 是功能富集分析 包括 BP 分析 CC 分析以及 MF 分析 GO 数据库 全称是 Gene Ontology 基因本体 他们把基因的功能分成了三个部分分别是 细胞组分 cellular

大家好,我是讯享网,很高兴认识大家。

表达差异矩阵

当产生的表达差异矩阵后,做后续的分析:

1.KEGG是通路富集分析

2.GO是功能富集分析,包括BP分析,CC分析以及MF分析。GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)生物过程(biological process, BP)

传统KEGG(通路富集分析)和GO(功能富集)分析时,如果富集到的同一通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样?是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?

传统的富集分析,针对总体的差异基因,不区分哪些差异基因是上调还是下调。

GSEA

3.GSEA分析是 基因集富集分析,由Broad Institute研究所提出的一种富集方法。对应的基因集数据库MSigdb。

GSEA的输入是一个基因表达量矩阵,其中的样本分成了A和B两组,首先对所有基因进行排序,简单理解就是根据处理后的差异倍数值进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因,其底部是下调的差异基因。

结果分析:

“MUT vs WT”的差异gene集(MUT为实验组,WT为对照组)
讯享网

GS:基因集(通路)的名字。

SIZE:代表该基因集(通路)下的基因总数。

ES:代表Enrichment score,NES代表归一化后的Enrichment score。

NOM p-val:代表p值,表征富集结果的可信度。

FDR q-val`代表q值, 是多重假设检验矫正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。

对于某个基因集下(通路里)的每个基因给出了详细的统计信息,如下图

RANK IN GENE LIST:代表该基因在排序中的位置。

RANK METRIC SCORE:代表该基因排序量的值,即:处理后的foldchange值。

RUNNIG ES:代表累计的Enrichment score。

CORE ENRICHMENT:代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因。

上图表格中的数据对应下面这张图

图分为3部分,如下:


第一部分:最顶部的绿色折线为基因Enrichment Score的折线图。纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,对应第二部分类似条形码的竖线。


第二部分:类似条形码的部分,为Hits,每条竖线对应该基因集下的一个基因。


第三部分:为所有基因的rank值分布图,纵坐标为ranked list metric,即该基因排序量的值,可理解为“公式化处理后的foldchange值”。

参考:基因集富集分析(GSEA)简介 - 知乎 (zhihu.com)

小讯
上一篇 2025-03-11 10:50
下一篇 2025-02-09 12:31

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/38757.html