关键词:MedCalc; 回归直线的比较; 直线回归; 残差齐性检验; 残差正态检验; 哑变量设置
一、案例介绍
为研究健康成年人的体重和双肾脏总体积(ml)的关系,在两个地区分别随机抽取20名健康成年人并测得体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾总体积是否有关,并希望通过健康成年人的体重预测双肾总体积。部分数据见图1。本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是判断两条直线回归方程的关系,首先需要检验两条直线是否平行,再检验截距是否相等。当认为两条总体回归直线平行时,如果能进一步认为其总体截距(即回归直线高度)相等,则在两组资料的自变量取值范围接近时,可认为两条总体回归直线基本重合,可合并两组样本资料,计算一个统一的样本直线回归方程来估计其总体直线回归方程。针对这种情况,可以使用两条回归直线的比较分析。
但需要满足6个条件:
条件1:两条直线的因变量为连续变量。本研究中,健康成年人的体重为连续变量,该条件满足。
条件2:若自变量是连续变量,则与因变量之间存在线性关系。该条件需要通过软件分析后判断。
条件3:各观测值之间相互独立,即残差之间不存在自相关。通过研究设计和数据收集的过程分析,可判断本案例中观测值之间不存在互相影响的情况,该条件满足。
条件4:自变量不存在显著的异常值。该条件需要通过软件分析后判断。
条件5:两条直线的残差均符合正态(或近似正态)分布。该条件需要通过软件分析后判断。
条件6:两条直线的残差方差齐。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 数据准备
1. 变量标签设置
点击左侧“变量”,出现“变量”对话框(图2),在此处选中需要进行标签设置的变量后点击右侧“属性”。
打开“变量属性”对话框(图3),设置变量area的标签,再同样设置volume、wt的标签。
2. 计算残差值
在回归分析中,残差是指因变量预测值和观测值间的差值。异常值检测、正态性检验和方差齐性检验均可通过残差分析完成。先进行area=1对应的残差值计算。
(1) 软件操作
点击“统计”—“回归”—“回归”(图4)。
在“回归”主对话框(图5)中设置如下参数,并点击“确定”
①变量Y:即纵轴变量。本例选择volume。
②变量X:即横轴变量。本例选择wt。
③重量:即权重,进行加权最小二乘回归时需选择一个包含每个观测值相对权重的变量。本例默认不进行选择。
④筛选条件:即设定统计分析的个案子组。本例选择“area=1”。
⑤回归方程:默认选择“在方程中包含常量”,为普通最小二乘回归的推荐选项。此外包括5种不同的回归方程供选择:“y=a+bx”表示直线方程;“y=a+blog(x)”表示对数曲线方程;“log(y)=a+bx”表示指数曲线方程;“log(y)=a+blog(x)”表示几何曲线方程;“y=a+bx+cx2”表示二次回归方程。本例选择“y=a+bx”。
⑥残差:选择进行正态分布检验的方法,主要包括【Shapiro-Wilk检验】(常用于3≤n≤50的小样本资料)、【Shapiro-Francia检验】(常用于5≤n≤5000的资料)、【D’Agostino-Pearson检验】(常用于50≤n≤1000的资料)、【Kolmogorov-Smirnov检验】(常用于n>50的资料)、【卡方检验】(适用于分箱资料)。本例选择“Shapiro-Wilk检验”。
(2) 结果解读
点击图6右下角“保存残差”,打开“保存残差”对话框(图7),勾选“标准化”,点击“确定”,即可保存残差,保存后数据表最后新增了一列REGR_Resid1。
参照变量“area=1”对应的残差值计算过程,可计算area=2的残差值REGR_Resid2。
(二) 适用条件判断
1. 条件2判断(线性关系判断)
(1) 软件操作
点击“统计”—“相关”—“散布图”(图8)。
在“散布图”主对话框(图9)中设置如下参数,并点击“确定”
①变量Y:即纵轴变量。本例选择volume。
②变量X:即横轴变量。本例选择wt。
③筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
④选项:【对数变换Y】表示将变量Y进行对数变换,【对数变换X】表示将变量X进行对数变换,【均等线】表示在图形中绘制均等线(y=x),【热图】表示在图中绘制热图。本例选择“热图”。
⑤子组:选择识别子组的类别变量,本例选择area。 ⑥趋势线:可选择绘制以下类型趋势线:【移动平均趋势线】可显示平滑资料的波动并将趋势显示得更明显,窗口宽度即为指定数量的数据点,移动平均趋势线将根据这些数据点的平均值作为趋势线的点;【LOESS平滑】即为局部回归平滑趋势线,跨度为用于每个局部拟合线的数据点数占所有数据点的比例,跨度值最大时为平滑趋势线;【降低的主轴线】显示压轴回归线,可同时考虑因变量(Y轴)和自变量(X轴)的测量误差;【同位素回归曲线】此处不适用。本例选择“降低的主轴线”。
(2) 结果解读
热图结果见图10,两组散点大致均呈一条直线,说明两个地区的双肾总体积和体重变量均存在线性关系。该条件满足。
2. 条件4判断(异常值判断)
(1) 软件操作
先检测残差变量REGR_Resid1的异常值情况。
点击“统计”—“异常值检测”(图11)。
在“异常值检测”主对话框(图12)中设置如下参数,并点击“确定”
①变量:即包含分析资料的变量。本例选择REGR_Resid1。
②筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
③异常值检测方法:包括以下类型:【Grubbs-左侧】表示进行只检查最小值的Grubbs检验;【Grubbs-右侧】表示进行只检查最大值的Grubbs检验;【Grubbs-两侧】表示进行检查两侧极端值的Grubbs检验;【生成的ESD检验】即广义ESD检验,可一次检测多个异常值,可设置最多可检测的异常值数,默认为10;【Turkey】即Turkey检验,可检出两侧的多个异常值。本例选择了后3种检测方法。
④选项:
【Alpha级】表示进行Grubbs检验和ESD检验时的检验水准,本例选择0.05;
【对数变换】表示当资料不服从正态分布时可对变量进行对数变换后再分析,本例不选择;
【检验正态分布】选择进行正态分布检验的方法,本例选择“Shapiro-Wilk检验”。
(2) 结果解读
残差检验结果见图13。残差的最小值和最大值均在-3~3之间,提示地区1的回归残差无异常。Grubbs和Turkey检验也未提示任何异常值。参照残差变量“REGR_Resid1”的异常值检测过程,检测“REGR_Resid2”的异常值,也提示无异常值。满足条件4。
3. 条件5判断(残差正态性检验)
(1) 软件操作
先检测area=1的残差变量REGR_Resid1的正态性情况。
点击“统计”—“分布图”—“正态图”(图14)。
在“正态图”主对话框(图15)中设置如下参数,并点击“确定”
①变量:即包含分析资料的变量。本例选择REGR_Resid1。
②筛选条件:即设定统计分析的个案子组。本例选择area=1。
③选项-Q-Q图:勾选“Q-Q图”,可以粗略评价资料是否服从正态分布。
④选项-检验正态分布:选择进行正态分布检验的方法,主要包括【Shapiro-Wilk检验】(常用于3≤n≤50的小样本资料)、【Shapiro-Francia检验】(常用于5≤n≤5000的资料)、【D’Agostino-Pearson检验】(常用于50≤n≤1000的资料)、【Kolmogorov-Smirnov检验】(常用于n>50的资料)、【卡方检验】(适用于分箱资料)。本例选择“Shapiro-Wilk检验”。
(2) 结果解读
area=1残差变量REGR_Resid1的Q-Q图见图16,可见散点基本围绕对角线分布,提示服从正态分布;在异常值判断过程中也给出了残差正态性检验的统计学推断结果(图13),P=0.1342,也提示服从正态分布。参照上述正态性检测过程,检测REGR_Resid2的正态性情况,也提示服从正态分布。满足条件5。
4. 条件6判断(残差的方差齐性检验)
(1) 软件操作
点击“统计”—“回归”—“散布图和回归线”(图17)。
在“散布图和回归线”主对话框(图18)中设置如下参数,并点击“确定”
①变量Y:即纵轴变量。本例选择volume。
②变量X:即横轴变量。本例选择wt。
③重量:即权重,进行加权最小二乘回归时需选择一个包含每个观测值相对权重的变量。本例默认不进行选择。
④筛选条件:即设定统计分析的个案子组。本例选择area=1。
⑤回归方程:默认选择“在方程中包含常量”,为普通最小二乘回归的推荐选项。此外包括5种不同的回归方程供选择:“y=a+bx”表示直线方程;“y=a+blog(x)”表示对数曲线方程;“log(y)=a+bx”表示指数曲线方程;“log(y)=a+blog(x)”表示几何曲线方程;“y=a+bx+cx2”表示二次回归方程。本例选择y=a+bx。
⑥选项:选择回归线绘制的方式,包括“95%置信”(绘制总体回归线的95%置信区间)、“95%预测”(绘制回归曲线的95%预测区间,比95%置信区间宽)、“画均等线y=x”和“热图”。本例选择“95%置信”。
⑦残差:选择该选项将绘制残差图,可直观评价所选模型的拟合优度。
⑧子组:不做任何选择。
(2) 结果解读
结果见图19。回归直线的预测值和对应的残差分布较为均匀,并未出现特殊的分布形式(如漏斗或者扇形),提示area=1方程残差的方差齐。残差分布图,也可以通过回归分析保存标准化预测值(图6),然后以标准化预测值为横坐标,以标准化残差为纵坐标绘制散点图,得到的图形与图19一样(感兴趣的读者可自行操作)。参照上述残差检测过程,可检测area=2时残差的方差齐性情况,也提示满足残差齐性。满足条件6。
(三) 统计描述及推断
1. 软件操作
“回归”对话框中,在“子组”对话框中选择地区变量“area”,见图20。
2. 结果解读
(1) 模型拟合结果
回归分析结果(图21~图23)中展示了拟合的3个回归方程并列出了模型的各项参数。
由图21可知所有个案(综合地区1和地区2)的回归方程为Y=103.4417+2.7832X,t=25.6925,P<0.0001。决定系数R2(R-square)=0.9456,提示自变量(体重)可以解释94.56%的因变量的变异(双肾总体积)。整体模型检验结果显示F=660.1022,P<0.0001,提示模型有统计学意义。如果P>0.05,则说明回归模型无统计学意义。
由图22可知地区1健康成年人的体重和双肾脏总体积的回归方程为Y=101.3475+2.8098X,t=12.6990,P<0.0001。决定系数R2(R-square)=0.8996,提示自变量(体重)可以解释89.96%的因变量的变异(双肾总体积)。整体模型检验结果显示F=161.2634,P<0.0001,提示模型有意义。
图23可知地区2健康成年人的体重和双肾脏总体积的回归方程为Y=105.5577+2.7563X,t=122.6734,P<0.0001。决定系数R2(R-square)=0.9988,提示自变量(体重)可以解释99.88%的因变量的变异(双肾总体积)。整体模型检验结果显示F=15048.7599,P<0.0001,提示模型有统计学意义。
综上,3个回归方程均拒绝H0,接受H1,可认为健康成年人的体重(kg)和双肾脏总体积(ml)之间存在线性关系。
(2) 回归直线的比较
比较两条回归直线,需从斜率和截距分别进行比较,结果见图24。
①斜率的比较:斜率差值为0.05357,t=0.2412,P=0.8108,按α=0.05水准,可知两个总体斜率的差异无统计学意义,不能认为两条回归直线不平行;若α<0.05,说明两条直线不平行,则无需再继续比较截距。
②截距的比较:由斜率比较结果可知,两条回归直线平行,因此可继续比较直线的截距是否相等。总体的一般斜率为2.7830,用于计算截距之间的调整差异,本例调整差为-0.9226,t=-0.3411,P=0.7350,按α=0.05水准,可知两条回归直线截距间的差异无统计学意义,即两条直线几乎重合,因此可合并两地区的资料得到统一的回归方程Y=103.4417+2.7832X。
四、结论
本研究通过比较两条回归直线判断两地区健康成年人的体重和双肾总体积的关系是否相同。首先通过绘制散点图,提示两地区数据的变量之间存在线性关系;通过专业判断提示数据之间相互独立;通过对残差进行Grubbs和Turkey检验,提示两组数据不存在需要处理的异常值;通过绘制残差Q-Q图,提示两组残差符合正态分布;通过绘制残差图,提示两组残差方差齐。因此本研究数据满足线性回归分析条件。
综合两个地区的所有个案的回归方程为Y=103.4417+2.7832X,t=25.6925,P<0.0001;地区A的回归方程为Y=101.3475+2.8098X,t=12.6990,P<0.0001;地区B的回归方程为Y=105.5577+2.7563X,t=122.6734,P<0.0001,均提示健康成年人的体重(kg)和双肾脏总体积(ml)之间存在线性关系。
两条回归直线斜率差值为0.05357,t=0.2412,P=0.8109;截距调整差为-0.9226,t=-0.3411,P=0.7350,两条直线几乎重合,即两个地区健康成年人的体重和双肾总体积的线性关系相同,合并两条回归直线方程为Y=103.4417+2.7832X,自变量(体重)可以解释94.56%的因变量(双肾总体积)的变异,影响程度较高,即体重每增加1 kg,双肾总体积增加2.7832 (95%CI 2.5639~3.0025) ml。
五、分析小技巧
比较两条回归直线前,需先判断每组数据是否满足线性回归分析条件,再通过比较直线斜率和截距判断两条回归线的情况。
在进行回归分析时,要注意避免对数据的过度挖掘,不能将回归模型分析的结果随意延伸到自变量取值范围以外的数值。也不能随意将模型分析结果延伸到因果关系。
此回归分析功能仅能比较2条回归直线,当需要比较2条以上回归线时,可使用协方差分析。