回归分析中的交互效应分析(Interaction Effect Analysis)——R软件实现

2022年7月31日星期日发布于 08:51:24 浏览：23920

原创不易，转载请注明来源，感谢！

附件下载：

交互效应分析.csv 请勿重复点击，如无响应请耐心等待或稍后再试。

回归分析中，当两个或多个因素之间存在相互依赖的关系时，常可使用交互效应分析了解因素之间的关联。本文举例介绍通过R软件实现回归分析中的交互效应分析。

关键字：R; 回归分析; 交互效应

在实际数据分析工作中，常会出现两个或多个因素之间存在相互作用的关系。如研究吸烟和饮酒等因素对高血压患病情况的影响时，吸烟和饮酒对因变量的影响可能存在相互作用的关系，这种情况下常可以采用交互效应分析，然后再采用分层分析详细了解各变量对结局的影响。

一、案例介绍

为分析患者年龄和A、B、C三种抑郁症治疗方案与治疗效果的关系，同时判断治疗方案与患者年龄是否具有交互效应，本案例选取36例患者，采集患者年龄及治疗方案数据，因变量为治疗效果评分(score，评分越高效果越好)，自变量为年龄(age)、治疗方案(treatment)。变量信息见表 1。案例数据可从“附件下载”处下载。

二、问题分析

本案例目的是分析患者年龄、治疗方案与治疗效果的关系，因变量为连续型变量，考虑采用多重线性回归分析，并在回归分析中创建患者年龄与治疗方法的交互项以分析二者是否具有交互效应。多元线性回归分析需要满足以下7条件：

条件1：样本量是自变量个数的5~10倍。本案例含5个自变量，分别为患者年龄、治疗方案变量(2个哑变量)和2个交互变量，而样本量为36，满足该条件。

条件2：自变量若为连续变量，需要与因变量之间存在线性关系。该条件需通过绘制散点图后判断。

条件3：各观测值之间相互独立，即残差之间不存在自相关。该条件需通过软件分析后辅助判断。

条件4：不存在显著的多变量异常值。该条件需通过软件分析后判断。

条件5：残差符合正态(或近似正态)分布。该条件需通过软件分析后判断。

条件6：残差大小不随所有变量取值水平的变化而变化，即方差齐性，可通过绘制残差图进行判断。

条件7：自变量之间无多重共线性，该条件需通过软件分析后判断。

三、软件操作及结果解读

(一) 导入数据

##导入数据##
mydata <- read.csv('交互效应分析.csv')
str(mydata)

导入后的结果见图1。

##重新定义分组变量##
mydata$treatment <- factor(mydata$treatment, labels = c("A", "B", "C"))  #将变量“treatment”设置为因子变量并为各水平赋值标签
mydata$treatment <- relevel(mydata$treatment, ref = "C") #将治疗方案C设置为参照组
View(mydata)

案例数据见图2。

(二) 适用条件判断