关键词:Stata; Kaplan-Meier生存分析; 生存分析; KM生存分析; Log-rank检验; 生存曲线
一、案例介绍
某肿瘤研究中心收集了2010年至2015年确诊为宫颈癌的患者生存数据:结局(Status:0=删失、1=死亡)、随访时间(Time,月)和组织学分级(Hist_stage:1=原位癌、2=早期浸润癌、3=浸润癌),部分数据见图1,欲探究不同组织学分级的宫颈癌患者的生存结局有无差异。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较三种组织学等级的宫颈癌患者的生存结局有无差异,可以采用Kaplan-Meier生存分析。但需要满足4个条件:
条件1:结局为互斥的二分类变量,即删失和死亡,本案例数据满足该条件。
条件2:随访时间或生存时间定义明确,并为量化数据,即以天、周、月、年等为单位的具体数值。本案例数据的生存时间为准确可测量的月数,满足该条件。
条件3:不宜有长期变异存在。对于动态队列,研究对象不是同时进入队列的,那么如果后期进入队列的研究对象使用了新的治疗方案和药物,生存率提高,那么整个队列的生存结果就会发生偏倚。该条件需要根据实际情况来判断,这里默认无长期变异。
条件4:删失事件在各组的分布相似。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件4判断(删失事件的占比与分布)
1. 软件操作
①*设置为生存时间数据*
stset Time ,failure(Status==1)
②*描述性分析*
stsum,by(Hist_stage)
stdescribe
tab Hist_stage Status,row
②*绘制删失值分布图*
scatter Hist_stage Time if Status==0
2. 结果解读
图2中显示,3427个患者中有417个人发生终点事件,随访时间最长的人是t=83,图3、图4给出了概要统计结果,即整个随访期间内不同组织学分级组内删失的分布情况。可见,原位癌(Hist_stage=1)患者和早期浸润癌(Hist_stage=2)患者的中位生存时间没有数值,表示这两组患者的死亡人数尚未达到50%,还不能计算出该数值;浸润癌(Hist_stage=3)患者的中位生存时间为26.00。图5中可以看到删失在三组中所占的比例分别是94.69%、76.27%和45.52%。此外,由图6散点图可大致看出,删失事件的分布在三组内相似,即满足条件4。
(二) 整体比较
1. 软件操作
①*log-rank检验*
sts test Hist_stage
②*绘制kaplan-Meier生存曲线、累积死亡率曲线*
sts graph,by (Hist_stage)
sts graph, cumhaz by(Hist_stage) noshow
2. 结果解读
图7中给出log-rank检验的结果,图8为三组不同组织学分级癌症患者的Kaplan-Meier生存曲线图,图9为Nelson-Aalen累积风险函数图(与生存曲线相反)。可知,不同组织学分级的癌症患者的生存分布差异有统计学意义(log rank检验:χ2=611.97,P<0.001)。Kaplan-Meier生存曲线表明,三组患者的生存分布有差异,且组织学分级为3(浸润癌)的患者的生存概率要低于同一时间段内的分级为1(原位癌)和2(早期浸润癌)的患者。
(三) 两两比较
以上的log-rank检验,其结果只能说明3组的生存率整体上有统计学差异,并不能具体说明哪两组之间的差异是否有统计学意义。因此,需要进行事后检验,即事后两两比较。在Stata中缺少直接进行事后两两比较的选项,可以通过χ2分割法进行两两比较,即将三组率或构成比的比较拆分成多个两组率或构成比的比较;同时校正检验水准α'=α/m,其中m=k(k-1)/2,k为分组数。本案例为3个分组,拆分成3个两组率的比较;取α=0.05,则α=0.05/3=0.017。
1. 软件操作
*对原位癌组和早期浸润癌组进行比较*
sts test Hist_stage if Hist_stage<3
*对早期浸润癌组和浸润癌组进行比较*
sts test Hist_stage if Hist_stage>1
*对原位癌组和浸润癌组进行比较*
sts test Hist_stage if Hist_stage!=2
2. 结果解读
图10、图11、图12分别给出了原位癌组和早期浸润癌组、早期浸润癌组和浸润癌组、原位癌组和浸润癌组分别比较时形成的交叉表,相应的观察频数、期望频数,以及有效率的比较结果,P值均为<0.001。可知,按照α'=0.017的检验水准,原位癌组和早期浸润癌组、早期浸润癌组和浸润癌组、原位癌组和浸润癌组生存率差异均有统计学意义。
四、结论
本研究采用Kaplan-Meier曲线和log-rank检验对不同组织学分级的宫颈癌患者的生存结果进行比较,案例数据满足条件1-4。Log-rank检验和成对比较的结果显示三组癌症患者的生存分布的差异有统计学意义(χ2=611.97,P<0.001),进一步进行事后两两比较,结果显示三组癌症患者生存分布差异均有统计学意义(P<0.001),从Kaplan-Meier生存曲线可知组织学分级为3的癌症患者的生存概率比同时间段内其他患者的低,原位癌患者生存状况最好,早期浸润癌患者次之,浸润癌患者最差。
五、知识小贴士
(一) 删失数据
- 在规定的随访期内,未能观察到一些研究对象结局事件的发生,即不能得知结局事件确切的发生时间,称这类研究对象的随访时间/生存时间为删失数据,根据原因可分为三种类型:①研究结束时(已达到规定的最长观察期/随访期),研究对象仍未出现结局事件;②由于研究对象在研究期间不再继续就诊,或拒绝访视,或失去联系等,未能观察到结局事件;③研究对象出现了竞争事件(如其他原因的死亡),观察不到既定的结局事件而终止随访。
(二) 中位生存时间
- 中位生存时间表示累积生存率为50%所对应的时间,是生存分析中最常用的概括性统计量。生存分析中较少使用平均生存时间。
(三) log-rank检验
- log-rank检验中的“log”并非为“对数”,而是表示“count”、“register”或“record”。在中文描述中可以直接写为“log-rank检验”,或者译为“时序检验”。
- Log-rank检验是比较不同组患者生存曲线的非参数检验,属于单因素分析。若想校正其他因素则需要采用Cox比例风险模型进行分析。