分层卡方检验(CMH χ² Test)——SPSS软件实现

发布于 2022年6月17日 星期五 22:19:14 浏览:9358
原创不易,转载请注明来源,感谢!
附件下载:
分层卡方检验(CMH卡方检验).zip 请勿重复点击,如无响应请耐心等待或稍后再试。

分层卡方检验,也称为Cochran-Mantel-Haenszel检验(CMH检验),主要用于分层分析。CMH检验通过对分层因素进行控制,从而考察调整混杂因素之后暴露/处理因素与结局事件之间的关联性。本文主要介绍分层卡方检验(CMH χ² TEST)在SPSS软件中的实现过程。

关键词:SPSS; 卡方检验; 分层卡方检验; CMH检验; Cochran-Mantel-Haenszel检验

根据两个分类变量水平数的不同,卡方检验可以分为2×2、R×2、2×C和R×C等类型。从CMH检验的原理来说,适用于以上所有的情况,但是SPSS软件只能对2×2四格表进行CMH检验,也称为K×2×2表格数据的CMH检验。

一、案例介绍

某医学组织研究饮酒是否会提高患肝癌风险,考虑到吸烟会严重影响饮酒和患癌风险间的相关性,因此将吸烟作为混杂因素处理,设计了一项病例对照研究。数据中混杂因素为“smoking”,标签为“吸烟”,测量尺度为“名义”,赋值为“0”和“1”分别代表“否”和“是”。分组变量为“drinking”,标签为“饮酒”,测量尺度为“名义”,赋值为“0”和“1”分别代表“否”和“是”。变量“cancer”,标签为“是否患癌”,测量尺度为“名义”,赋值为“0”和“1”分别代表“否”和“是”。频数变量“frequency”,标签为“频数”,测量尺度为“标度”,记录不同组的例数。数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是研究饮酒是否会提高患肝癌风险,吸烟作为混杂因素。即比较不同吸烟情况下饮酒组与不饮酒组患癌率是否有差异。针对这种情况可以制作四格表,并进行分层卡方检验。但需要满足3个条件:

条件1:分组变量与观察变量均为二分类变量。本案例的分组变量和观察变量均为二分类变量,该条件满足。

条件2:观察变量相互独立。本研究中各研究对象的观察变量都是独立的,不存在互相干扰的情况,该条件满足。

条件3:各层内总数及最小期望频数满足卡方检验相应条件(χ²检验的注意事项——使用技巧)。该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断

对于本案例数据,条件1和条件2均满足。但需要通过总例数和期望频数来选择具体的分析方法(Pearson卡方检验、连续校正卡方检验或Fisher确切概率法)。这一判断过程通过统计描述来完成,详见下文。

(二) 统计描述及推断

1. 软件操作

卡方检验的数据录入可分为两种:

第一种为频数资料,需要设置分组变量、观察变量和频数变量,该形式在进行卡方检验时较为常见,进行统计分析前需要进行数据加权。

第二种为非频数资料,只有分组变量和观察变量两列,每一行为一个患者的数据,该形式是在SPSS软件中进行各种统计分析最常用的资料形式,进行卡方检验前不需要进行数据加权。

本案例为频数资料,需要先进行加权处理。

(1)选择“数据”—“个案加权”(图2),出现“个案加权”对话框。

图2

(2) 在“个案加权”对话框中选择“个案加权依据”,将左侧的“频数”变量选入“频数变量”框中,点击确定,加权完毕(图3)。

图3

(3)选择菜单“分析”—“描述统计”—“交叉表”(图4)。

图4

(4)在弹出的对话框中,将“是否患癌”选为行变量,将“饮酒”选为列变量,将“吸烟”选为混杂因素,放入“层”的方框中(图5)。

图5

(5)点击“统计”按钮,选中“卡方”选项;再选中“柯克兰和奥特尔-亨塞尔统计”,“检验一般比值比等于”的框内填写1即可(比值比为1,表示原假设为:患癌组和未患癌组的吸烟比例相同),选择“风险”,如图6。

图6

(6)点击“交叉表”对话框右侧“单元格”,在“交叉表:单元格显示”对话框中勾选“实测”、“期望”、“行”,其他保持默认不变,如图7所示。点击“继续”后回到“交叉表”对话框,点击“确定”,则得到卡方检验结果。

图7

2. 结果解读

(1) 统计学描述

图8为“是否患病*饮酒*吸烟交叉表”,给出了混杂因素(吸烟)分层下,饮酒组和未饮酒组的观察值、期望频数及组内占比。可知整体检验总例数为992例,各层的最小期望频数>5;分层检验时,各层的总例数均为496例,最小期望频数均>5,因此整体检验和分层检验均可使用Pearson卡方检验分析结果。由各层的描述性分析结果可知,吸烟组患癌者中饮酒的比例为58.0%,而不吸烟组患癌者中饮酒的比例仅为50.2%,提示在“吸烟”与否两组人群中饮酒比例存在一定差异。但是这种差异是否会造成两组人群中饮酒与患癌关联的不一致,需要依据各层卡方检验和CMH检验的结果进行判断。

图8
(2) 统计学推断

图9为本案例卡方检验结果。在卡方检验的表中,分别列出了吸烟组、不吸烟组以及总体的卡方检验结果。图10为“风险评估”表,列出了各组及总体的暴露风险比值比(OR值)。

从结果可知,若不考虑混杂因素(吸烟),总计分析皮尔逊卡方值为χ2=10.895,“渐进显著性 (双侧)”为0.001,OR值为1.600 (95%CI: 1.245~2.055),说明患癌和饮酒间存在相关性。

吸烟人群中,皮尔逊卡方值为χ2=26.603,“渐进显著性 (双侧)”小于0.001,OR值为2.626 (95%CI为1.812~3.805),说明患癌和饮酒间的相关性有统计学意义。

而不吸烟人群中,结论与此相反,皮尔逊卡方值为χ2=0.057,“渐进显著性 (双侧)”为0.811,OR值为1.045 (95%CI为0.730~1.495),说明患癌和饮酒间的相关性无统计学意义。对比吸烟组和不吸烟组的分析结果可知,混杂因素(吸烟)的确会对饮酒与患癌之间的关联产生影响。

图9
图10

图11为“比值比齐性检验”结果,即对不同分层下OR值是否一致进行检验,也称为OR值同质性检验。通常情况下,首先查看“比值比齐性检验”结果,如果呈现出显著性(P值小于0.05),则说明具有混杂因素,即需要考虑分层项(混杂因素),即分别查看不同分层项下的数据分析结果;反之如果P≥0.05,即说明没有混杂因素,不需要考虑分层项,报告整体的结果即可。

结果显示两种同质性检验方法的统计量及其检验结果,Breslow-Day法 χ2=12.322,P<0.001;塔罗内(Tarone's)法χ2=14.780,P<0.001。两种方法P值均<0.05,提示按照是否吸烟分层后,层间的OR值存在着一定的异质性。

图11

图12为“条件独立性检验”结果,即分层卡方检验的结果。柯克兰(Cochran’s)法卡方值为14.581,P<0.001;而曼特尔-亨塞尔(Mantel-Haenszel)法卡方值为34.489,P<0.001。两种分析方法均说明考虑了吸烟的影响后,患癌与饮酒之间的相关性确实有统计学意义。

图12

图13为估计的合并OR值,是在比值比齐性检验结果认为各层OR值同质的前提下,进一步去估算其合并的关联强度,SPSS使用Woolf法检验OR值有无统计学显著性,其假设检验为“OR值是否等于1”。

本例结果显示,在控制了“吸烟”分层因素的影响后,饮酒对患癌的风险是危险因素,其合并OR=1.634,95%CI为1.267~2.107,“渐进显著性(双侧)”P值结果小于0.001,说明OR值有统计学显著性。

但需要注意的是,本例中,比值比齐性检验的结果显示层间OR值存在一定异质性,因此此时不宜合并OR值,建议分层报告结果;若层间OR值一致,则可报告最后合并的OR值。

图13

四、结论

本研究分析不同吸烟情况下饮酒与患肝癌的关联,采用分层卡方检验。比值比齐性检验结果显示P<0.05,提示层间的OR值具有异质性,此时不宜计算合并OR值。按照是否吸烟进行分层,在吸烟人群中,饮酒和患癌的相关性具有统计学意义,OR值为2.626 (95%CI为 1.812~3.805),χ2=26.603,P<0.001。而在不吸烟人群中,饮酒和患癌的相关性无统计学意义,OR值为1.045 (95%CI为 0.730~1.495),χ2=0.057,P=0.811。

End
文章目录 沉浸式阅读