医学研究之回归分析的样本量计算——单个二分类自变量Logistic回归优势比的置信区间法

2022年4月4日星期一发布于 20:47:07 浏览：3241

原创不易，转载请注明来源，感谢！

前面介绍了“医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的交互优势比Wald检验”，适用于Logistic回归模型中有两个自变量且两者存在交互效应。本文将介绍单个二分类自变量Logistic回归优势比的置信区间法(Confidence Intervals for the Odds Ratio in Logistic Regression with One Binary X)，适用于模型中只有一个二分类自变量且使用Wald检验计算OR_yx的情形。

关键词：样本量计算; PASS; 回归分析; Logistic回归; 单个二分类自变量Logistic回归分析的样本量计算

一、案例数据

某研究者欲开展一项研究，探索肺癌是否与吸烟之间有关系。以成年男性为研究对象，假设基线肺癌发生率为6%，研究者设定优势比OR=9.6，已知有52%的成年男性吸烟，拟建立宽度小于3.5的双侧95%置信区间，试估计所需要的样本含量？

二、案例分析

该研究探索肺癌是否与吸烟有关系，假设基线肺癌发生率为6%，研究者设定OR=9.6，拟建立宽度小于3.5的双侧95%置信区间，估计所需样本量，宜采用单个二分类自变量Logistic回归的优势比的置信区间法，其样本量估算需要以下几个参数：

非暴露时事件发生概率P₀
OR_yx置信区间宽度，即上置信限或下置信限到OR_yx的距离
样本比例，设定X=1时的样本比例
Y和X的优势比OR_xy
检验水准α (常取0.01至0.1)，本例取0.05
脱失率(DR，通常不宜超过20%)，本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”—“Logistic Regression (Logistic回归)”—“Binary X (Confidence Intervals)(二分类自变量的置信区间法)”—“Confidence Intervals for the Odds Ratio in Logistic Regression with One Binary X”(单个二分类自变量Logistic回归优势比的置信区间法)”。见图1。

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2)：

Solve For：“Sample Size”表示本分析的目的是用于计算样本量。
One-sided or Two-sided Interval：“Interval Type”表示置信区间类型，本例选择“Two-Sided”双侧置信区间。
Confidence：“Confidence Level(1-Alpha)”表示置信度，即1-α，本例为0.95。
Precision：“Width of OR_yx Confidence Interval”表示OR_yx 的置信区间宽度，即OR_yx置信区间上限和下限间的距离，本例为3.5。
Baseline Probability：“P₀[Pr(Y=1|X=0)]”表示非暴露时事件发生的概率π₀，本例为0.06。
Odds Ratio (Confidence Interval Term)：“OR_yx(Y,X Odds Ratio)”设定Y和X的优势比OR_yx，本例为9.6。
Prevalence：“Prevalence with X=1”设定“Percent with X=1”的比例，本例为52。

(三) 脱失率设置

在“Reports (结果报告)”模块中，勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”，在“Dropout Rate”中填写“10%”(图3)，表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果，可知计算的样本例数(N)为5272。

图5“References (参考文献)”列出了该计算过程中参考的相关文献；“Report Definitions (报告定义)”列出了各个参数的具体解释；“Summary Statements (报告概述)”为整个分析报告的摘要。

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N')，也是研究实际开展过程中需要达到的最低样本量，本研究中应至少需要5858例研究对象。

图7为此次样本量估算整个过程的详细参数设置汇总。

五、结论

该研究为单个二分类自变量Logistic回归优势比的置信区间法计算样本含量。以成年男性为研究对象，假设基线肺癌发生率为6%，研究者设定OR=9.6，已知有52%的成年男性吸烟，拟建立宽度小于3.5的双侧95%置信区间，则至少需要5272例研究对象。若考虑10%的脱失率，则至少需要5858例研究对象。

我要纠错

End

医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归的交互优势比Wald检验

医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归优势比的置信区间法