关键词:SPSS; 简单线性回归; 直线回归; 残差齐性检验; 残差正态检验; 哑变量设置
一、案例介绍
研究健康成年人的体重和双肾脏总体积(ml)的关系,测得24名健康成年人的体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾总体积是否有关,并希望通过健康成年人的体重预测双肾总体积。对数据的变量进行标签赋值后部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是通过判断两个计量资料之间的关系,同时使用其中一个变量预测另一个变量,计算其中一个变量对另一个变量变异的解释程度。针对这种情况,可以使用简单线性回归分析。但需要满足6个条件:
条件1:因变量为连续变量。本研究中,健康成年人的体重为连续变量,该条件满足。
条件2:若自变量是连续变量,则与因变量之间存在线性关系。该条件需要通过软件分析后判断。
条件3:各观测值之间相互独立,即残差之间不存在自相关。通过研究设计和数据收集的过程分析,可判断本案例中观测值之间不存在互相影响的情况。该条件还可通过软件分析后辅助判断。
条件4:自变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件5:残差符合正态(或近似正态)分布,该条件需要通过软件分析后判断。
条件6:残差方差齐。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件2判断(线性关系判断)
若自变量是连续变量,简单线性回归要求自变量和因变量之间存在线性关系,本例即要知晓成年人的体重(wt)和双肾脏总体积(volume)之间是否存在线性关系,可通过绘制散点图来实现。
(1) 软件操作
① 选择“图形”—“图表构建器” (图2)。
② 在“图表构建器”对话框的“图库”中,选择“散点图/点图”,双击选择“简单散点图” (图3)
③ 将自变量“体重”和因变量“双肾总体积”分别拖拽到“X轴”、“Y轴”(图4)。
④ 点击“确定”,即可得散点图。
(2) 结果解读
图5是自变量和因变量分布的散点图,从图中可以看出,各自变量“体重”和因变量“双肾总体积”存在线性关系,满足条件3。
2. 条件3~6判断
可以通过简单线性回归,在结果中判断是否符合条件3~6。
(1) 软件操作
① 选择“分析”—“回归”—“线性” (图6)。
② 在弹出的对话框中,将因变量“双肾总体积”选入右侧“因变量”框、将自变量“双肾总体积”选入右侧“自变量”框(图7)。
③ 点击右侧“统计”,选择“回归系数中的“估算值”、“置信区间”选项,选择“残差中的“德宾-沃森”、“个案诊断”选项,点击“继续” (图8)。
④ 点击右侧“图”,分别在“Y:”和“X:”框内添加“*ZRESID(标准化残差)”和“*ZPRED(标准化预测值)”。 在“标准化残差图”中勾选“直方图”和“正态概率图”,点击“继续” (图9)。
⑤ 点击右侧“保存”,在“距离”中勾选“库克距离”和“杠杆值”,点击“继续”(图10)。回到“线性回归”对话框,点击“确定”。
(2) 结果解读
图11显示,本案例分析过程中自变量进入模型的方式为“输入法”。
①独立性判断
图12是模型摘要,“德宾-沃森/D-W”检验结果可以用来判断各观测值之间的独立性。本例D-W值为2.078,P=0.844,可以认为观测值相互独立,满足条件3。
②异常值判断
通过图5的散点图可大致判断,数据不存在异常值。但仍需要统计学推断结果的判断。
本例可通过“Casewise diagnostics (个案诊断)”选项来判断是否存在异常值点,结果没有出现个案诊断的异常值列表,提示本例没有异常值。也可通过“Cook’s distance (库克距离)”用来判断强影响点是否为因变量的异常值点。一般认为当D<0.5时不是异常值点,当D>0.5时认为是异常值点。由图13可知,最大库克距离D为0.285<0.5,提示不存在显著异常值。
综上,本案例满足条件4。
③正态性判断
可通过标准化残差直方图和残差P-P图来判断残差的正态性。
图14是回归标准化残差的直方图,可见标准化残差近似服从正态分布。
图15是回归标准化残差的正态P-P图,可见P-P图各点沿对角线分布,提示回归残差近似服从正态分布。
综上,本案例满足条件5。关于正态性检验的注意事项详见文章(医学统计学核心概念及重要假设检验的软件实现(2/4)——正态性假设检验的SPSS实现)。
④方差齐性判断
可通过回归标准化残差与标准化预测值的散点图来判断方差齐性。由图16可见,预测值和对应的残差分布较为均匀,数据点分布在±2个标准差之内,并未出现特殊的分布形式(如漏斗或者扇形),提示残差的方差齐,满足条件6。关于方差齐性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(4/4)——方差齐性检验及SPSS实现)。
(二) 统计描述及判断
1. 软件操作
经过上述操作,已经输出了简单线性回归模型的结果。
2. 结果解读
(1) 模型拟合程度
图12列出模型的拟合程度。R为复相关系数,R=0.947;R2为决定系数,用来反映模型预测的准确性,本例决定系数R2=0.896,提示自变量可以解释89.6%的因变量变异,即成年人的体重能解释双肾总体积的89.6%的变异。但是R2会受自变量个数的影响,夸大自变量对因变量变异的解释程度,自变量越多,R2越大。为校正自变量个数的影响,一般采用后面的Adjusted R2(调整R2),调整自变量个数对结果的影响。本例的调整R2=0.891,提示自变量(体重)可以解释89.1%的因变量变异(双肾总体积)。
图17为模型统计检验结果,采用的是方差分析,结果显示F=189.84,P<0.001,提示模型有统计学意义。如果P>0.05,则说明回归模型没有统计学意义。
(2) 回归系数解释
图18列出了截距和自变量的回归系数及回归系数95%CI、统计量t值及P值。可知,回归模型的截距为115.119,表示自变量取值为0时,因变量的取值,并无实际专业意义。变量“wt”的非标准化系数(即斜率)为2.585 (95%CI:2.196~2.974),表示体重每增加1 kg,双肾体积增加2.585 ml。据此可以写出本案例的回归方程为:
Volume =115.119+2.585×wt
根据此方程可以计算合理范围内体重对应的双肾总体积。
四、结论
本研究采用简单线性回归模型通过健康成年人的体重预测双肾总体积。通过绘制散点图,提示两变量之间存在线性关系;通过专业判断和Durbin-Watson检验提示数据之前相互独立;通过绘制散点图、个案诊断和库克距离分析,提示数据不存在需要处理的异常值;通过绘制标准化残差直方图和残差P-P图,提示残差符合正态分布;通过绘制残差图,提示残差方差齐。本研究数据满足线性回归分析条件。
线性回归分析方程为:volume = 115.119 + 2.585×wt,回归模型具有统计学意义,F=189.84,P<0.001;自变量(体重)可以解释89.6%的因变量(双肾总体积)的变异,影响程度较高(adjusted R2=0.891),即体重每增加1 kg,双肾总体积增加2.585 (95%CI:2.196~2.974) ml。
五、知识小贴士
- Durbin-Watson检验通常用来检测残差是否存在自相关,Durbin-Watson检验值分布在0~4之间,一般认为值为1.8~2.2时,数据间相互独立,D-W值越接近2,观测值相互独立的可能性越大。需要注意的是,判断观测值是否独立,主要取决于研究设计和数据收集阶段的质量控制,Durbin-Watson检验最好用于辅助判断。
- 库克距离用来判断强影响点是否为因变量的异常值点。一般认为当D<0.5时不是异常值点,当D>0.5时认为是异常值点。
- 分析中得到的回归截距为自变量取值为0时因变量对应的值。本研究中,回归截距为当体重为0时,研究对象的平均双肾体积(115.119) ml。这显然不符合客观实际,因此无论截距的统计检验结果是否有统计学意义,在进行简单线性回归时一般都无需关注这个指标,需要关注的是斜率。
- 在进行回归分析时,要注意避免对数据的过度挖掘,不能将回归模型分析的结果随意延伸到自变量取值范围以外的数值。也不能随意将模型分析结果延伸到因果关系。