医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的交互优势比Wald检验

2022年4月4日星期一发布于 09:06:00 浏览：3893

原创不易，转载请注明来源，感谢！

前面介绍了“医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的优势比Wald检验”，适用于Logistic回归模型中有两个二分类变量且使用Wald检验进行显著性检验的情况。本文将介绍两个二分类自变量Logistic回归的交互优势比Wald检验[Tests for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s (Wald Test)]，适用于模型中有两个二分类自变量(X和Z)且两者存在交互效应并使用交互效应的Wald检验进行显著性检验的情形。

关键词：样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归的样本量计算

一、案例数据

某研究者欲在开展一项研究，探索肺癌(Y)是否与吸烟(X)和性别(Z)之间有关系，以成人为研究对象。已知吸烟与性别之间存在交互效应，假设基线肺癌发生率为6%，研究者设定自变量间交互优势比OR_int=3.0，OR_yx=9.6、OR_yz=3.8、OR_xz=3.5，已知有52%的成人吸烟，研究对象中男性占75%。进行Wald检验，取双侧α=0.05、β=0.10，试估计所需要的样本含量？

二、案例分析

该研究探索肺癌是否与吸烟和性别有关系，已知吸烟与性别之间存在交互效应，假设基线肺癌发生率为6%，研究者设定OR_int=3.0，OR_yx=9.6、OR_yz=3.8、OR_xz=3.5，有两个二分类自变量，且变量之间有交互效应，估计所需样本量，宜采用两个二分类自变量Logistic回归的交互优势比Wald检验，其样本量估算需要以下几个参数：

暴露和混杂均不存在时，事件发生的概率P₀
检测效应大小的度量，X和Y的交互优势比OR_int
Y和X的优势比OR_yx及Y和Z的优势比OR_yz
自变量之间的关系OR_xz
检验水准α (常取0.01至0.1)，本例取0.05
检验功效1-β (常取0.80或更高)，本例取0.90
脱失率(DR，通常不宜超过20%)，本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”—“Logistic Regression (Logistic回归)”—“Binary X (Wald Test) (二分类自变量的Wald检验)”—“Tests for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s (Wald Test) (两个二分类自变量Logistic回归的交互优势比Wald检验)”见图1。

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2)：

Solve For：“Sample Size”表示本分析的目的是用于计算样本量。
Alternative Hypothesis：选择“Two-Sided”，表示使用双侧备择假设。
Power and Alpha：Power为把握度，填写“0.90”；Alpha为检验水准，填写“0.05”。
Baseline Probability：“P₀[Pr(Y=1|X=0, Z=0)]”设暴露和混杂均不存在时事件发生的概率π₀，本例为“0.06”。
Term Tested under the Alternative：“OR_int(X,Z Interaction Odds Ratio)”设定X和Z的交互优势比OR_int，OR_int为研究检测效应大小的度量。本例为“3.0”。
Other Terms in the Regression Model：设定模型中其他选项，“OR_yz(Y, X Odds Ratio)”，指定Y和X的优势比OR_yx=9.6；“OR_yz(Y, Z Odds Ratio)”，指定Y和Z的优势比OR_yz=3.8。
Between the Independent Variables：“OR_xz(X,Z Odds Ratio)”设定自变量间的关系，本例为“3.5”。
Prevalences：设定“Percent with X=1”为52、“Percent with Z=1”为75。

(三) 脱失率设置

在“Reports (结果报告)”模块中，勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”，在“Dropout Rate”中填写“10%”(图3)，表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果，可知计算的样本例数(N)为1738。

图5“References (参考文献)”列出了该计算过程中参考的相关文献；“Report Definitions (报告定义)”列出了各个参数的具体解释；“Summary Statements (报告概述)”为整个分析报告的摘要。

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N')，也是研究实际开展过程中需要达到的最低样本量，本研究中应至少需要1932例研究对象。

图7为此次样本量估算整个过程的详细参数设置汇总。

五、结论

研究为两个二分类自变量Logistic回归的交互优势比Wald检验计算样本含量。以成年人为研究对象，研究肺癌是否与吸烟和性别有关系，已知吸烟与性别之间存在交互效应。假设基线肺癌发生率为6%，研究者设定OR_int=3.0，OR_yx=9.6、OR_yz=3.8、OR_xz=3.5，有52%的对象吸烟，75%为男性。进行Wald检验，取α=0.05、β=0.10，则至少需要1738例研究对象。若考虑10%的脱失率，则至少需要1932例研究对象。

我要纠错

End

医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的优势比Wald检验

医学研究之回归分析的样本量计算——单个二分类自变量Logistic回归优势比的置信区间法