医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的优势比Wald检验

发布于 2022年4月3日 星期日 21:12:00 浏览:2632
原创不易,转载请注明来源,感谢!

前面介绍了“医学研究之回归分析的样本量计算——单个二分类自变量Logistic回归的优势比Wald检验”,适用于Logistic回归模型中只有一个二分类变量且使用Wald检验进行显著性检验的情况。本文将介绍两个二分类自变量Logistic回归的优势比Wald检验[Tests for the Odds Ratio in Logistic Regression with Two Binary X’s (Wald Test)]的样本量计算,适用于模型中有两个二分类自变量(X和Z)且使用Wald检验进行显著性检验的情形。

关键词:样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归分析的样本量计算

一、案例数据

某研究者欲开展一项研究,探索肺癌是否与吸烟和性别之间有关系,其中目标自变量为是否吸烟(X),协变量为性别(Z)。以成人为研究对象,假设基线肺癌发生率为6%,研究者设定ORyx=9.6、ORyz=3.8、ORxz=3.5,已知有52%的成人吸烟,研究对象中男性占75%。进行Wald检验,取双侧α=0.05、β=0.10,试估计所需要的样本含量?

二、案例分析

该研究探索肺癌是否与吸烟和性别有关系,假设基线肺癌发生率为6%,研究者设定ORyx=9.6、ORyz=3.8、ORxz=3.5,且有两个二分类自变量,估计所需样本量,宜采用两个二分类自变量Logistic回归的优势比Wald检验,其样本量估算需要以下几个参数:

  1. 暴露和混杂均不存在时事件发生的概率P0
  2. 检测效应大小的度量ORyx
  3. 指定Y和Z的优势比ORyz
  4. 自变量之间的优势比ORxz
  5. 自变量X=1与Z=1时的样本比例
  6. 检验水准α (常取0.01至0.1),本例取0.05
  7. 检验功效1-β (常取0.80或更高),本例取0.90
  8. 脱失率(DR,通常不宜超过20%),本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”—“Logistic Regression (Logistic回归)”—“Binary X (Wald Test)(二分类自变量的Wald检验)”—“Tests for the Odds Ratio in Logistic Regression with Two Binary X’s (Wald Test) (两个二分类自变量Logistic回归的优势比Wald检验)”见图1。

图1

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2):

  1. Solve For:“Sample Size”表示本分析的目的是用于计算样本量。
  2. Alternative Hypothesis:选择“Two-Sided”,表示使用双侧备择假设。
  3. Power and Alpha:Power为把握度,填写“0.90”;Alpha为检验水准,填写“0.05”。
  4. Baseline Probability:“P0[Pr(Y=1|X=0, Z=0)]”表示暴露和混杂均不存在时事件发生的概率π0,本例为0.06。
  5. Term Tested:“ORyx(Y, X Odds Ratio)”设定Y和X的优势比ORyx,ORyx为研究检测效应大小的度量。本例为“9.6”。
  6. Other Term in the Regression Model:设定模型中其他选项,“ORyz(Y, Z Odds Ratio)”,指定模型中Y和Z的优势比,ORyz=3.8。
  7. Between the Covariates:“ORxz(X,Z Odds Ratio)”设定自变量X和Z之间的关系,本例为“3.5”。
  8. Prevalence:设定“Percent with X=1”为52、“Percent with Z=1”为75。
图2

(三) 脱失率设置

在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填写“10%”(图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

图3

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果,可知计算的样本例数(N)为55。

图4

图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。

图5

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究中应至少需要62例研究对象。

图6

图7为此次样本量估算整个过程的详细参数设置汇总。

图7

五、结论

该研究为两个二分类自变量Logistic回归的优势比Wald检验计算样本含量。以成人为研究对象,研究肺癌(Y)是否与吸烟(X)和性别(Z)有关系,假设基线肺癌发生率为6%,设定ORyx=9.6、ORyz=3.8、ORxz=3.5,有52%的对象吸烟,75%的对象为男性。进行Wald检验,取α=0.05、β=0.10,则至少需要55例研究对象。若考虑10%的脱失率,则至少需要62例研究对象。

End
文章目录 沉浸式阅读