Kaplan-Meier生存分析(Kaplan-Meier Survival Analysis)——SPSS软件实现

发布于 2022年1月3日 星期一 16:04:47 浏览:9491
原创不易,转载请注明来源,感谢!
附件下载:
Kaplan-Meier生存分析.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了Kaplan-Meier生存分析(Kaplan-Meier Survival Analysis)的假设检验理论(链接),本篇文章将实例演示在SPSS软件中实现Kaplan-Meier生存分析的操作步骤。

关键词:SPSS; Kaplan-Meier生存分析; 生存分析; KM生存分析; Log-rank检验; 生存曲线

一、案例介绍

某肿瘤研究中心收集了2010年至2015年确诊为宫颈癌的患者生存数据,包括结局、随访时间(Time,月)和组织学分级(Hist_stage:1=原位癌,2=早期浸润癌,3=浸润癌),欲探究不同组织学分级的宫颈癌患者的生存结局有无差异?

创建代表患者结局的变量“Status”(0=删失,1=死亡),测量尺度设为“Nominal(名义)”;创建代表患者随访时间的变量“Time”,测量尺度设为“Scale(标度)”;创建代表患者癌症组织学分级的变量“Hist_stage”(1=原位癌,2=早期浸润癌,3=浸润癌),测量尺度设为“Ordinal(有序)”。部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是比较三种组织学等级的宫颈癌患者的生存结局有无差异,可以采用Kaplan-Meier生存分析。但需要满足4个条件:

条件1:结局为互斥的二分类变量,即删失和死亡,本案例数据满足该条件。

条件2:随访时间或生存时间定义明确,并为量化数据,即以天、周、月、年等为单位的具体数值。本案例数据的生存时间为准确可测量的月数,满足该条件。

条件3:不宜有长期变异存在。对于动态队列,研究对象不是同时进入队列的,那么如果后期进入队列的研究对象使用了新的治疗方案和药物,生存率提高,那么整个队列的生存结果就会发生偏倚。该条件需要根据实际情况来判断,这里默认无长期变异。

条件4:删失事件在各组的分布相似。该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断(条件4判断: 删失事件的占比与分布)

1. 筛选删失个案

(1) 软件操作

① 点击“数据”—“选择个案”(图2)。

图2

② 在“选择个案”的“选择”模块中选中“如果条件满足”,点击下方的“如果”按钮(图3),则出现设置个案选择条件的页面。

图3

③ 在设置个案选择条件的页面中选中变量“Status”,点击右侧的箭头,将变量“Status”录入到右侧的公式录入框,再点击下方的等号“=”和数字“0”,即得到公式“Status=0”,代表筛选出删失的个案,然后点击“继续”(图4),回到“选择个案”对话框后点击“确定”则完成筛选。

图4
(2) 结果查看

筛选结果可以在显示原始数据的“变量视图”页面查看,可以看到已生成新的筛选变量“filter_$”,同时在所有观测最左侧的编号列中可以发现,变量“Status”值为1的观测已被标记了删除线,表示后面的分析将不包含这些观测值(图5)。

图5

2. 绘制散点图

(1) 软件操作

① 点击“图形”—“图表构建器”(图6)。

图6

② 在“图形构建器”对话框中选中“图库”下方的“散点图/点图”,双击右侧第一个简单散点图图标或点击该图标后拖拽到上方空白的图表预览框中。然后将左侧变量框中的变量“Time”拖拽到图形的X轴处,变量“Hist_stage”拖拽到图形的Y轴处,最后点击“确定”(图7)。

图7
(2) 结果解读

由图8散点图可大致看出,删失事件的分布在三组内相似,即满足条件4。

图8

(二) 整体比较

1. 筛选删失个案

(1) 软件操作

进行整体比较前首先需要恢复全部数据,去除个案筛选。

① 点击“数据”—“选择个案”(图2)

② 在“选择个案”的“选择”模块中选中“所有个案”,然后点击“确定”(图9)。

图9
(2) 结果查看

在数据页面点击“变量视图”,可以看到筛选变量“filter_$”仍存在,但观测最左侧编号列中的删除线全部消失,即表示此后的分析将包含所有观测值(图10)。

图10

2. 生存分析

(1) 软件操作

① 点击“分析”—“生存分析”—“Kaplan-Meier(卡普兰-梅尔)”(图11)

图11

② 在“Kaplan-Meier(卡普兰-梅尔)”页面将变量“Time”和“Hist_stage”分别选入右侧“时间”框和“因子”框中,将变量“Status”选入右侧“状态”框中,然后点击下方的“定义事件”(图12)。

图12

③ 在“定义事件”页面中选中“单值”,在后方输入框中输入“1”,表示当变量“Status”值为1时为事件发生(图13),然后点击“继续”回到“Kaplan-Meier(卡普兰-梅尔)”对话框。

图13

④ 在“Kaplan-Meier(卡普兰-梅尔)”对话框中选择“选项”,在“选项”页面下的“图”部分勾选“生存分析函数”和“风险”,其他保持默认不变,如图14所示,然后点击“继续”回到“Kaplan-Meier(卡普兰-梅尔)”对话框。

图14

⑤ 在“Kaplan-Meier(卡普兰-梅尔)”对话框中选择“比较因子”,在“比较因子”页面的“检验统计”部分勾选“秩的对数”、“布雷斯洛”、“塔罗内-韦尔”,其他保持默认不变,如图15所示,然后点击“继续”,回到“Kaplan-Meier(卡普兰-梅尔)”对话框后点击“确定”。

图15
(2) 结果解读

图16为“个案处理摘要”,列出了3个组织学分级下的“总数”、“事件数”、“检剔后个案数”和“检剔后百分比”,可以看到删失在三组中所占的比例分别是94.7%、76.3%和45.5%(图16)。

图16

图17展示了各个组织学分级下患者生存时间的均数和中位数,可见,原位癌(Hist_stage=1)患者和早期浸润癌(Hist_stage=2)患者的中位生存时间没有数值,表示这两组患者的死亡人数尚未达到50%,还不能计算出该数值;浸润癌(Hist_stage=3)患者的中位生存时间为26.00 (95%CI:18.76~33.24)月。

图17

图18是三组不同组织学分级癌症患者的生存曲线,可见,三组患者的生存曲线明显不同。

图18

图19为三组不同组织学分级癌症患者的累积死亡率曲线(与生存曲线相反)。

图19

图20是三种检验的比较结果,可见P均<0.001,表明不同组织学分级的癌症患者生存分布的差异有统计学意义。具体哪些组别有差异,可以进一步进行事后的两两比较。

图20

(三) 两两比较

1. 软件操作

① 点击“生存分析”—“ Kaplan-Meier(卡普兰-梅尔)”(图11)

② 出现图12所示页面,点击“比较因子”,在“因子级别的线性趋势”下勾选“在层之间成对比较”,其他保持默认不变,如图21所示,然后点击“继续”,回到“Kaplan-Meier(卡普兰-梅尔)”对话框后点击“确定”。

图21

2. 结果解读

图22是“Pairwise Comparisons (成对比较)”结果,可见任意两个组织学分级组的患者的生存分布差异均有统计学意义(P均<0.001),结合图18可知,原位癌患者生存状况最好,早期浸润癌患者次之,浸润癌患者最差。

图22

四、结论

本研究采用Kaplan-Meier曲线法和Log-rank检验对不同组织学分级的宫颈癌患者的生存结果进行比较。不同组织学分级组内删失值分布情况类似。

原位癌(Hist_stage=1)患者和早期浸润癌(Hist_stage=2)患者的中位生存时间没有数值,表示这两组患者的死亡人数尚未达到50%;浸润癌(Hist_stage=3)患者的中位生存时间为26.00 (95%CI:18.76~33.24)月。Log-rank检验结果表明不同组织学分级的癌症患者生存分布的差异有统计学意义(χ2=611.968,P<0.001)。进一步进行事后两两比较,结果显示三组癌症患者生存分布差异均有统计学意义(P<0.001),原位癌患者生存状况最好,早期浸润癌患者次之,浸润癌患者最差。

五、知识小贴士

(一) 删失数据

  • 在规定的随访期内,未能观察到一些研究对象结局事件的发生,即不能得知结局事件确切的发生时间,称这类研究对象的随访时间/生存时间为删失数据,根据原因可分为三种类型:①研究结束时(已达到规定的最长观察期/随访期),研究对象仍未出现结局事件;②由于研究对象在研究期间不再继续就诊,或拒绝访视,或失去联系等,未能观察到结局事件;③研究对象出现了竞争事件(如其他原因的死亡),观察不到既定的结局事件而终止随访。

(二) 中位生存时间

  • 中位生存时间表示累积生存率为50%所对应的时间,是生存分析中最常用的概括性统计量。生存分析中较少使用平均生存时间。

(三) Log-rank检验

  • Log-rank检验中的“log”并非为“对数”,而是表示“count”、“register”或“record”。在中文描述中可以直接写为“log-rank检验”,或者译为“时序检验”。
  • Log-rank检验是比较不同组患者生存曲线的非参数检验,属于单因素分析。若想校正其他因素则需要采用Cox比例风险模型进行分析。

六、分析小技巧

  • 比较方法

SPSS中提供了三种Kaplan-Meier生存分析的比较方法。三种方法的主要区别是各时间点所取的权重不同,Log Rank 法在各时间点的权重均为1,Breslow法在各时间点的权重等于各个时间点前的尚存个体数,Tarone-Ware法在各时间点的权重介于上述两种方法之间,等于各时间点前的尚存个体数的平方根。因此,对于一开始合在一起,随着时间的推移,越拉越开的生存曲线,使用Log Rank法比使用Breslow法容易得到差异有显著性的结果,反之对于一开始相差很大,随着时间的推移反而越来越接近的生存曲线Breslow法更容易得到有差异的检验结果,Tarone-Ware法则介于两者之间。在实际应用中,Log Rank 法和Breslow法较为常见。

End
文章目录 沉浸式阅读