在医学科研工作中,常会遇到呈偏态分布的定量变量,如住院时间、住院费用等。在分析这类指标的影响因素时,可以先将其进行正态性转换,然后作为因变量进行线性回归分析;或者,按照一定标准将其转化为二分类或多分类变量,进行二分类logistic回归或有序logistic回归等分析。另外,还可以通过分位数回归进行影响因素分析,尤其是存在天花板/地板效应(最高/最低效应)时。本文将实例演示分位数回归在Stata软件中的操作步骤。
关键词:Stata; 分位数回归; 偏态分布; 天花板/地板效应
一、案例介绍
新冠疫情期间,某地区随机抽取了429例参与抗疫的医务人员进行问卷调查,了解新冠疫情对医务人员带来的心理冲击或影响。收集了Sex (性别:1=男,2=女)、Age(年龄,岁)、Marital_status (婚姻状况:1=单身,2=已婚,3=离异)、Education (文化程度:1=大专,2=本科,3=研究生)、Level_hospital (医院等级:1=三级医院,2=二级医院,3=社区医院)、Length_service (工作年限,年)、IES-R (事件影响量表,Impact of Event Scale-Revised)得分等信息,拟分析工作年限对IES-R得分的影响。部分数据见图1。案例可从“附件下载”处下载。

二、问题分析
本案例的分析目的是探究工作年限对抗疫医务人员受新冠冲击程度的影响,即分析工作年限与IES-R得分的关联。在案例中,IES-R为定量变量,范围为0~88分。根据经验,IES-R得分一般呈偏态分布,因此可以采用分位数回归进行分析。对于分位数回归,偏态分布和天花板/地板效应不是必须满足的条件,但一般会在分析前进行正态性和离群值的检验。分位数回归的应用情景:
- 因变量唯一,且为定量变量。本案例中IES-R得分为定量变量,满足该条件。
- 因变量为偏态分布,即不服从正态分布,该条件需要通过软件分析后判断。
- 因变量存在天花板/地板效应(离群值),该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 数据整理
1. 添加变量标签
使用label variable varname ["label"]
为各变量添加中文标签。
label variable Sex "性别" label variable Age "年龄" label variable Marital_status "婚姻状态" label variable Education "文化程度" label variable Level_hospital "医院等级" label variable Length_service "工作年限"
2. 添加数值标签
使用label define lblname # "label" [# "label" ...]
为分类变量添加数值标签。
label define Sex 1 "男" 2 "女" label define Marital_status 1 "单身" 2 "已婚" 3 "离异" label define Education 1 "大专" 2 "本科" 3 "研究生" label define Level_hospital 1 "三级医院" 2 "二级医院" 3 "社区医院"
3. 查看、显示标签
① 完成标签添加后,可在变量窗口中查看(图2),或通过命令des进行查看(图3)。


若要显示所添加的数值标签,可通过label values varname [lblname]
实现。如:label values Sex Sex
(图4)。另外,还可以通过label values Sex
恢复数字显示。

(二) 适用条件判断
1. 条件1判断(正态性检验)
(1) 软件操作
① Shapiro-Wilk正态性检验
swilk IESR

② 绘制Q-Q图
qnorm IESR

③ 绘制直方图
histogram IESR, bin(30)

(2) 结果解读
图5中正态性检验结果显示,IES-R得分正态分性检验的P<0.001,不服从正态分布;图6和图7也提示数据呈偏态分布。综上,IES-R得分不满足正态性。
2. 条件2判断(天花板/地板效应)
(1) 软件操作
① 对IES-R得分进行描述性分析
summarize IESR, detail

② 绘制箱线图
graph box IESR

(2) 结果解读
图8中显示了变量IES-R得分的描述性分析结果,从最小值、最大值和百分位数可知IES-R得分(范围:0~88分)存在天花板/地板效应,即有0分和88分等最小或最大的得分,且均在合理得分范围之内。图9箱线图显示,在97.5%分位数以外存在一些离群值,也提示存在天花板效应。
(三) 变量筛选
1. 软件操作
本案例尝试使用四分位数回归,即进行分位数回归时将因变量按照四分位数(25%、50%、75%)进行分组,并进行500次重抽样(Bootstrap)。
** 单因素分位数回归 **
*工作年限*
sqreg IESR Length_service, q(0.25 0.50 0.75) reps(100)

*性别*
sqreg IESR Sex, q(0.25 0.50 0.75) reps(100)

*年龄*
sqreg IESR Age, q(0.25 0.50 0.75) reps(100)

*婚姻状况*
sqreg IESR i. Marital_status, q(0.25 0.50 0.75) reps(100)

*文化程度*
sqreg IESR i. Education, q(0.25 0.50 0.75) reps(100)

*医院级别*
sqreg IESR i.Level_hospital, q(0.25 0.50 0.75) reps(100)

2. 结果解读
图10~15给出单因素分位数回归的结果,结果显示工作年限、年龄、医院级别与IES-R在模型中有统计学意义,即与因变量的关联有统计学意义,其他变量与因变量的关联无统计学意义。
(四) 模型拟合
根据变量筛选,可以年龄、医院级别作为协变量纳入多因素分位数回归。但由于年龄和工作年限具有一定的共线性,因此多因素分析不纳入年龄。
1. 软件操作
sqreg IESR Length_service i.Level_hospital, q(0.25 0.50 0.75) reps(100)

2. 结果解读
图16给出了多因素分位数回归的结果,可知在校正了医院级别后,工作年限与75%分位数的IES-R得分的关联有边缘统计学意义(t=1.91, P=0.057)。即对于IES-R得分在75%分位数上,随着工作年限的增加,IES-R得分越高(β=0.3125, 95%CI: -0.009~0.634)。另外,在25%分位数、50%分位数上,工作年限与因变量的关联无统计学意义(P>0.05)。
四、结论
本案例采用分位数回归对工作年限与IES-R得分的关联进行分析,因变量为定量变量,不服从正态分布,存在天花板/地板效应。
分析结果显示,在校正了医院级别后,对于上四分位数的IES-R得分,随着工作年限的增加,IES-R得分越高(β=0.3125, 95%CI: -0.009~0.634);工作年限与25%分位数、50%分位数因变量的关联无统计学意义(P>0.05)。
五、知识小贴士
- 天花板/地板效应:也称最高/最低效应,是指变量数据中存在一些较大值或较小值,在箱线图中显示在97.5%或2.5%分位数线以外的离群点,如本案例中存在76、80和88等较大值,最小值0。
- 对于线性回归,得到的是随着自变量的变化,因变量期望均值随之发生变化;对于分位数回归,得到的是随着自变量的变化,因变量的期望百分位数随之发生变化。
- 与线性回归、logistic回归不同的是,分位数回归可拟合一组回归,分析某自变量对不同百分位数因变量的影响,可更加全面地探究自变量与因变量之间的关联。
六、分析小技巧
- 系数可视化(图17)
在进行分位数回归后,可以对系数进行可视化,命令如下:
qreg IESR Length_service grqreg, ci

- 自主设置百分位数(图18)
当对特殊的百分位数感兴趣时,也可以自主设定,如:
sqreg IESR Length_service i.Level_hospital, q(0.20 0.60 0.90) reps(100)
