医学研究之回归分析的样本量计算——单因素或多因素Logistic回归

发布于 2022年4月5日 星期二 20:51:18 浏览:14301
原创不易,转载请注明来源,感谢!

前面介绍了“医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归交互优势比的置信区间法”。本文主要介绍单因素或多重Logistic回归(Logistic Regression)的样本量估计,适用于有一个或多个二分类自变量/连续变量的单因素或多因素Logistic回归。

关键词:样本量计算; PASS; 回归分析; Logistic回归; 单因素Logistic回归分析的样本量计算; 多因素Logistic回归分析的样本量计算

一、案例数据

某研究者计划研究荨麻疹史是否对慢性气管炎有影响,同时将性别作为协变量。已知无荨麻疹史的人群中慢性气管炎发生率为5.0%,预计OR=2.5。若荨麻疹史在性别上回归方程的R2=0.5,参加研究的对象中40%有荨麻疹史。取双侧α=0.05,β =0.1,试估计所需的样本含量。

二、案例分析

本研究欲调查一个因变量与两个二分类自变量的关系,采用多因素Logistic回归,需要以下几个参数:

  1. 基线事件发生率,本例取0.05
  2. 优势比或备择概率,本例取2.5
  3. 自变量X在模型中的其他协变量上回归时得到的方程的R2,本例取0.5
  4. X=1时的样本比例,本例为40
  5. 检验水准α (常取0.01至0.1),本例取0.05
  6. 检验功效1-β (常取0.8或更高),本例取0.9
  7. 脱失率(DR,通常不宜超过20%),本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”— “ Logistic Regression (逻辑回归)”—“Binary and Continuous X’s (二分类和连续协变量)”—“Logistic Regression (Logistic回归)”,见图1。

图1

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2):

  1. Solve For:选择“Sample Size”,表示本分析的目的是用于计算样本量。
  2. Alternative Hypothesis:选择“Two-Sided”,表示使用双侧备择假设。
  3. Power and Alpha:Power为把握度,填0.90;Alpha为检验水准,填0.05。
  4. P0 (Baseline Probability that Y=1):表示基线概率,含义取决于X1是二分类变量还是连续变量。本例中为二分类变量,P0是当X1 = 0时Y = 1的概率,且所有其他协变量都假定等于它们的平均值。本例中填0.05。
  5. Use P1 or Odds Ratio:选择直接指定P1或通过指定优势比来指定P1。本例选择“Odds Ratio”。Odds Ratio (Odds1/Odds0):填写优势比2.5。
  6. R-Squared of X1 with Other X’s:当X1在模型中的其他协变量上回归时得到的方程的R2,以此来研究加入其他协变量时对检验功效和样本量的影响。范围为0≤R2<1。本例填0.5。
  7. X1 (Independent Variable of Interest):即指定协变量类型是二分类还是连续型,影响样本量大小。本例选择Binary (X=0 or 1),即二分类变量。
  8. Percent of N with X1 = 1:当研究协变量X1为二分类变量时,需指定X1 = 1时的样本比例。范围为1 ~ 99,本例填40。
图2

(三) 脱失率设置

在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填10 (图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

图3

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果,本研究至少需要1485研究对象。

图4

图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。

图5

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究需要1650例研究对象。

图6

图7为此次样本量估算整个过程的详细参数设置汇总。

图7

五、结论

本研究中欲探究因变量(慢性气管炎)与目标自变量(荨麻疹史)和混杂变量(性别)是否存在关联,两个自变量均为二分类变量,采用多因素Logistic回归。期望OR=2.5,可知无荨麻疹史人群中慢性气管炎发生率为5.0%,研究对象中40%有荨麻疹史。已知荨麻疹史在性别上回归的方程的R2=0.5,若检验水准取0.05,检验功效取0.90,则至少需要1485例研究对象。若考虑10%的脱失率,则至少需要1650例研究对象。

End
文章目录 沉浸式阅读