生存分析原理简明教程 单因素生存分析 Kaplan-Meier、LogRank 只能针对单一的变量进行 多因素cox回归分析

生存分析原理简明教程 单因素生存分析 Kaplan-Meier、LogRank 只能针对单一的变量进行 多因素cox回归分析一 生存分析 狭义上来说 生存分析用来分析病人的生存和死亡情况 广义上讲的是事件是否发生 在这里就用是否死亡来代替 一般来说 生存的数据一般有两个变量 一个事件是否发生 病人是否死亡 死亡为 1 未死亡为 0 一个是事件发生经历的时间 这里用生存时间来代表 简而言之

大家好,我是讯享网,很高兴认识大家。

一、生存分析

狭义上来说,生存分析用来分析病人的生存和死亡情况。广义上讲的是事件是否发生。在这里就用是否死亡来代替。一般来说,生存的数据一般有两个变量,一个事件是否发生,病人是否死亡,死亡为1,未死亡为0,一个是事件发生经历的时间,这里用生存时间来代表。简而言之,数据有两个变量,一个是生存状态(0或1),一个是生存时间。

二、删失

删失指的是未观察到时间发生,在这里就是未观察到患者死亡,若患者死亡,则生存状态为1,若在观察时间内不知道患者是否死亡,称为删失,生存状态为0。造成删失有很多种情况,可以是截止到生存时间为止仍然存活,也可以是失访。

三、Cox比例风险模型

Cox回归主要探讨什么样的患者死亡的更快,什么因素影响了患者死亡的速度。Cox回归分为单因素分析和多因素分析,分别探讨的是单个因素对于患者死亡的影响和多个因素对于患者死亡的影响。通常的做法是单个因素的影响比较显著时再将该因素用来多因素分析。Cox回归的公式如下


讯享网

h(t)是风险函数,风险函数是指在时间t时刻事件发生的概率,也就是说在t时刻之前患者都未死亡。 h0(t) 是基准风险函数。 x1 .... xn是协变量,也就是我们的多因素分析中的每一个因素, β1 .... βn 是变量前的系数,称为回归系数。这里通过极大似然法来估计回归系数。Cox回归的公式类似于一个广义线性回归。最后可以得到一个函数h(t),反应的是在若干个因素的影响下,t时刻患者死亡的概率。

生存分析简明教程 生存分析原理

在生物医学研究中,生存分析 是非常重要和常见的分析方法。本文对 生存分析 中的Kaplan–Meier 模型Cox 比例风险模型进行了简要而详尽的概述,帮助大家更好的理解生存分析等相关概念。本文适用于生物医学专业初学者以及对生存分析感兴趣的非专业人士。

生存分析

首先,简单描述一下 生存分析 的使用场景,已经熟悉的同学可以选择直接跳过。 生存分析 经常用在癌症等疾病的研究中,例如在对某种抗癌药物做临床试验时,会首先筛选一部分癌症患者随机分为两组,一组服用该试验药物,一组服用对照药物,服药后开始统计每个患者从服药一直到死亡的生存时间,通过考察两组之间的病人在生存时间上是否有统计学差异来判断试验药物是否有效。在这里,死亡是整个实验中重点观测的事件,即 event。对于每个病人,需要记录他们发生该事件的具体时间。因此, 生存分析 可以抽象概述为,研究在不同条件下,特定事件发生与时间的关系是否存在差异。这些具体事件可以是死亡,也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件,而不同条件即为不同的分组依据,可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。下图是***院士在对欧洲呼吸学会针对 Covid-19 的报告中提到的研究结果,他们对湖北省内和省外的病人从开始症状到入院时间做了分析,从发生症状开始,入院则是我们刚才讲的 event 事件,而湖北省内外则是不同的分组条件。图中还提到,他们使用 Cox 模型对地理进行了校正,这也是我们在这篇文章中后续要讲到的内容。对***报告感兴趣的同学可以访问此链接 进行查看。

上面对生存分析的使用场景做了简单介绍,相信大家已经大概对生存分析有了基本的印象。接下来我们需要提前交待一下关于删失数据的情况,即 censored data. 

删失数据,字面意思是删除丢失的数据,它在生存分析里面实际指的是在实验过程中丢失的、失去跟踪的数据。举例来说,对于肿瘤治疗药物的临床试验,关注事件为从服药到死亡,但是有一部分病人在试验过程中会无法观测到死亡事件的发生,比如无法联系到、或主动退出、或其他需要紧急处理退出临床试验的情况、以及试验结束时还未发生死亡等,这些数据就称作删失数据。考虑到这种类型的删失保留了从一开始到删失前的进展,而丢失了后续的结局,我们将这类删失称作右删失。相对应的,还有一种类型叫做左删失,比如我们要统计从初次患病到最终死亡的生存时间的分析,有些病人已知患有疾病且知道其死亡时间,但无法确定初次患病的时间,这样的删失则成为左删失。对于左删失数据,有一些对应的方法进行处理,我们这里不做讨论(有时间的话可以加进来)。本文后续主要对右删失的情况进行考虑。

开始之前,我们再明确两个概念。

1,生存概率,即 Survival probability,指的是研究对象从试验开始直到某个特定时间点仍然存活的概率,可见它是一个对时间t的函数,我们定义之为 S(t)

2,风险概率,即 Hazard probability ,指的是研究对象从试验开始到某个特定时间 t 之前存活,但在 t 时间点发生观测事件如死亡的概率,它也是对时间 t 的函数,定义为 H(t)。接下来要讲的 Kaplan-Meier 方法主要关注 S(t),而后面讲到的 Cox 风险比例模型则关注 H(t)。

下面进入正题,引入 Kaplan–Meier 方法,该方法是由 Kaplan 和 Meier 与 1958 年共同提出的,为理解方法的细节,我们先看下一张表(原文链接)。本例中我们以死亡作为观测事件,这张表也叫做 life table.

小讯
上一篇 2025-01-19 12:23
下一篇 2025-02-06 08:55

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/31589.html