关键词:样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归分析的样本量计算
一、案例数据
某研究者欲开展一项研究,探索肺癌(Y)是否与吸烟(X)和性别(Z)有关系。以成人为研究对象,假设基线肺癌发生率为6%,研究者设定ORyx=9.6、ORyz=3.8、ORxz=3.5。已知有52%的成人吸烟,研究人群中男性占75%,拟建立ORyx宽度小于3.5的双侧95%置信区间,试估计所需要的样本含量?
二、案例分析
该研究探索肺癌是否与吸烟和性别两个变量有关系,假设基线肺癌发生率为6%,研究者设定ORyx=9.6、ORyz=3.8、ORxz=3.5。拟建立ORyx宽度小于3.5的双侧95%置信区间,估计所需样本量,宜采用两个二分类自变量Logistic回归的优势比的置信区间法,其样本量估算需要以下几个参数:
- 暴露和混杂均不存在时事件发生概率P0
- ORyx置信区间宽度,即上置信限或下置信限到ORyx的距离
- 样本比例,设定X=1时及Z=1时的样本比例
- 假设优势比ORxy、ORzy、ORxz
- 检验水准α (常取0.01至0.1),本例取0.05
- 脱失率(DR,通常不宜超过20%),本例取10%
三、软件操作
(一) 方法选择
在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”—“Logistic Regression (Logistic回归)”—“Binary X (Confidence Intervals)(二分类自变量的置信区间法)”—“Confidence Intervals for the Odds Ratio in Logistic Regression with Two Binary X’s”(两个二分类自变量Logistic回归优势比的置信区间法)”见图1。
(二) 参数设置
在“Design (设置)”模块中按以下参数设置相应选项(图2):
- Solve For:“Sample Size”表示本分析的目的是用于计算样本量。
- One-sided or Two-sided Interval:“Interval Type”表示置信区间类型,本例选择“Two-Sided”双侧置信区间。
- Confidence:“Confidence Level(1-Alpha)”表示置信度,即1-α,本例为0.95。
- Precision:“Width of ORyx Confidence Interval”表示ORyx 的置信区间宽度,即ORyx置信区间上限和下限间的距离,本例为3.50。
- Baseline Probability:“P0[Pr(Y=1|X=0, Z=0)]”表示暴露和混杂均不存在时事件发生的概率π0,本例为0.06。
- Odds Ratio (Confidence Interval Term):“ORyx (Y,X Odds Ratio)”设定Y和X的优势比ORyx,本例为9.60;“ORyz (Y, Z Odds Ratio)”设定Y和Z的优势比ORyz,本例为3.80;“ORxz (X,Z Odds Ratio)”设定X和Z的优势比ORxz,本例为3.50。
- Prevalences:“Prevalence with X=1”设定“Percent with X=1”的比例,本例为52;“Prevalence with Z=1”设定“Percent with Z=1”的比例,本例为75。
(三) 脱失率设置
在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填写“10” (图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。
四、结果及解释
图4列出了该研究设计的相关参数和样本量计算结果,可知计算的样本例数(N)为3080。
图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。
图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究中应至少需要3423例研究对象。
图7为此次样本量估算整个过程的详细参数设置汇总。
五、结论
该案例为两个二分类自变量Logistic回归优势比的置信区间法计算样本含量。以成人为研究对象,假设基线肺癌发生率为6%,设定ORyx=9.6、ORyz=3.8、ORxz=3.5,已知有52%的成人吸烟,研究人群中男性占75%,拟建立ORyx宽度小于3.5的双侧95%置信区间,则至少需要3080例研究对象。若考虑10%的脱失率,则至少需要3423例研究对象。