关键词:R语言; R软件; 比值比; 数据加权; OR值
一、案例介绍
某研究员欲探究脑卒中(Stroke)的危险因素,在某地区抽样调查了345名35岁以上居民脑卒中的患病情况,现将所有调查对象按照年龄是否≥60岁分为两组[中年组(35-59岁)用数据“2”代表,和老年组(≥60岁)用数据“1”代表],患脑卒中用“1”代表,未患脑卒中用“2”代表,问老年人的脑卒中患病风险是中年人的多少倍?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是计算老年人的脑卒中患病风险是中年人的多少倍,也就是计算老年人与中年人脑卒中患病的比值比(Odds Ratio,OR)。
本案例以独立样本χ2检验为例计算OR值,但需要满足2个条件:
条件1:自变量和因变量均为二分类变量,本案例中的年龄分组和脑卒中患病情况均为二分类变量,满足该条件。
条件2:独立性,即观测值之间互不干扰,本案例的观测间相互独立,满足该条件。
三、软件操作及结果解读
(一) 导入数据
mydata <- read.csv("比值比.csv") #导入CSV数据 View(mydata) #查看数据
在数据栏目中可以查看全部数据情况,数据集中共有3个变量和4行观察数据,3个变量分别代表年龄组(Age)、卒中发生情况(Stroke)及频率(Frequency)。
如果数据集较大也可使用如下命令查看数据框结构:
str(mydata) #查看数据框结构
(二) 适用条件判断
本案例数据满足上述条件。
(三) 统计描述及推断
1. 数据整理
(1) 软件操作
## 数据整理 ## compare<-matrix(c(111,46,78,110),nr=2,dimnames = list(c("≥60","35-59"),c("Yes","No"))) #数据整理并编辑为矩阵格式 compare #查看数据
(2) 结果解读
图3的数据整理结果列出了卡方检验所需要的数据格式,并存储在“compare”数据框中。
2. 计算构成比
(1) 软件操作
S1<-prop.table(compare,margin = 2) #计算列百分比 S1 #显示列百分比
(2) 结果解读
图4给出了患脑卒中(Yes)和未患脑卒中(NO)两组人群中老年组(≥60岁)和中年组(35-59岁)的百分比。由结果可知,患脑卒中的人群中老年组占70.7%,未患脑卒中的人群中老年组占41.5%。
3. 统计推断
(1) 软件操作
## 卡方检验 ## S2<-chisq.test(compare,correct = FALSE) #不进行连续性校正 S2$expected #查看期望频数
S2 #查看卡方检验结果
## 计算OR值 ## library(epiDisplay) #调用程序包epiDisplay cci(cctable=compare) #计算OR值
(2) 结果解读
解读χ2检验结果时,遵循以下原则:
- ①当总例数≥40,且所有期望频数(理论频数)≥5时,可使用Pearson χ2检验。
- ②当总例数≥40,有1个期望频数≥1且<5,可使用连续校正χ2检验。
- ③当总例数<40或有1个期望频数<1,需要使用Fisher确切概率法。
- ④无论总例数的大小及期望频数分布情况如何,Fisher确切概率法均可使用。在计算机能够满足运行负荷的情况下,推荐使用Fisher确切概率法。
- ⑤如果使用Pearson χ2检验或连续校正χ2检验得出的P值比较接近检验水准,建议采用Fisher确切概率法。
由图5查看期望频数的结果可知,四格表的期望频数均>5,最小期望计数为70.9913。图6的Pearson χ2检验结果表明患脑卒中和未患脑卒中两组人群中年龄构成的差异有统计学意义(χ2=29.471,P<0.001)。由图7的计算结果可知,老年组脑卒中的患病风险是中年组的3.4倍[OR=(111×110)/(78×46)],OR值的95% CI为2.17~5.34。
四、结论
本研究采用2×2 χ2检验(独立样本χ2检验)计算比值比。结果显示,患脑卒中的人群中老年组占70.7%,未患脑卒中的人群中老年组占41.5%,老年人患脑卒中的风险是中年人的3.4 (95%CI: 2.17-5.34)倍,即高龄是患脑卒中的危险因素。
五、知识小贴士
- 比值比,又称比数比、优势比,是病例组与对照组暴露比值之比(比值指某事物发生的可能性与不发生的可能性之比)。
- OR>1说明暴露与结局呈“正”关联,暴露是结局事件的促进因素。
- OR<1说明暴露与结局呈“负”关联,暴露是结局事件的抑制因素。
六、分析小技巧
- OR值的计算可以通过两种方法完成:一是采用独立样本χ2检验(Independent Samples χ2 Test)。第二种是采用单因素二项logistic回归(Binary logistic regression)。
- 两种方法均可以得到OR值及其95%置信区间。OR值可信区间若包括1,则表明无统计学意义,其与P<0.05等价。
- 独立样本χ2检验中还可计算队列研究的相对危险度(RR),在“Statistics (统计分析)”的“[Comparative Measures (2×2 only)](效应比较)”中勾选“Relative risk (相对风险)”即可。