关键词:样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归分析的样本量计算
一、案例数据
某研究者计划探索子宫内膜癌是否与使用雌激素和某基因有关联,已知雌激素与该基因之间存在交互作用,欲估计两者交互作用ORint的置信区间(宽度小于0.9)。已知基线子宫内膜癌发生率为5.0%,研究对象中50%使用过雌激素,40%携带某基因。若估计ORint=1.5、ORyx=6.0、ORyz=4.5、ORxz=2.0,拟建立ORint宽度小于0.9的双侧95%置信区间,试估计所需的样本含量?
二、案例分析
本研究欲调查一个二分类因变量与两个二分类自变量的关系,且两个自变量间存在交互效应,拟建立宽度小于0.9的双侧95%置信区间,采用两个二分类自变量Logistic回归的交互优势比的置信区间法,其样本量计算需要以下几个参数:
- 置信度,本例取0.95
- 交互优势比(ORint)置信区间宽度,本例取0.9
- 基线事件发生率,本例为0.05
- 暴露变量X与混杂变量Z的交互优势比(ORint),本例取1.5
- 响应变量Y与暴露变量X的优势比,本例取6.0
- 响应变量Y与混杂变量Z的优势比,本例取4.5
- 暴露变量X与混杂变量Z的优势比,本例取2.0
- 暴露变量或混杂变量作用时的样本比例,本例分别为50和40
- 脱失率(DR,通常不宜超过20%),本例取10%
三、软件操作
(一) 方法选择
在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”— “Logistic Regression (逻辑回归)”—“Binary X (Confidence Interval) (二分类自变量的置信区间)”—“Confidence Intervals for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s (两个二分类自变量Logistic回归的交互优势比的置信区间)”,见图1。
(二) 参数设置
在“Design (设置)”模块中按以下参数设置相应选项(图2):
- Solve For:选择“Sample Size”,表示本分析的目的是用于计算样本量。
- Interval Type:选择“Two-Sided”,表示使用双侧置信区间。
- Confidence Level(1-Alpha):表示置信度CL,即为1-α,本例填0.95。
- Width of ORint Confidence Interval:表示ORint的双侧置信区间宽度,即从置信下限到置信上限的距离,范围介于0.2~10.0。本例填0.90。
- Baseline Probability P0 [Pr (Y=1|X=0, Z=0)]:当暴露和混杂因素都不存在时,事件发生的基线概率。范围介于0~1。本例填0.05。
- ORint (X, Z Interaction Odds Ratio):即暴露变量X与混杂变量Z的交互优势比。范围为0<ORint<∞ (通常为0.1<ORint<10)。本例填1.5。
- ORyx (Y, X Odds Ratio):即指定响应变量Y和暴露变量X的优势比,表示研究检测得的效应大小(事件率)的度量。是X=1与X=0时结局Y=1的概率的比值。范围为0<ORyx<∞ (通常为0.1<ORyx<10)。本例填6.0。
- ORyz (Y, Z Odds Ratio):即指定响应变量Y和混杂变量Z的优势比,是Z=1与Z=0时结局Y=1的概率的比值。范围为0<ORyz<∞ (通常为0.1< ORyz <10)。本例填4.5。
- ORxz (X, Z Odds Ratio):即指定暴露变量X和混杂变量Z的优势比,是Z=1与Z=0时结局X=1的概率的比值。范围为0<ORxz<∞ (通常为0.1< ORxz <10)。本例填2.0。
- Percent with X=1:表示X=1时的样本比例,范围为1~99,本例填50。Percent with Z=1:表示Z=1时的样本比例,范围为1~99,本例填40。
(三) 脱失率设置
在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填写10(图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。
四、结果及解释
图4列出了该研究设计的相关参数和样本量计算结果,可知至少需要6268例研究对象。
图4
图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。
图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究至少需要6965例研究对象。
图7为此次样本量估算整个过程的详细参数设置汇总。
五、结论
本研究中欲探究响应变量(子宫内膜癌)与暴露变量(使用雌激素)和混杂变量(携带某基因)是否存在关联,两个自变量均为二分类变量,且两者存在交互作用。可知基线子宫内膜癌发生率为5.0%,研究对象中50%使用过雌激素、40%携带某基因。已知ORint=1.5、ORyx=6.0、ORyz=4.5、ORxz=2.0,拟建立ORint宽度小于0.9的双侧95%置信区间,则至少需要6268例研究对象。若考虑10%的脱失率,则至少需要6965例研究对象。