医学研究字回归分析的样本量计算——两个二分类自变量Logistic回归交互优势比的置信区间法

发布于 2022年4月5日 星期二 20:37:53 浏览:2476
原创不易,转载请注明来源,感谢!

前面介绍了“医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归优势比的置信区间法”,本文主要介绍交互优势比的置信区间(Confidence Intervals for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s)的样本量估计。适用于计算模型中有两个二分类自变量(X和Z),且两者存在交互作用并使用Wald检验计算交互优势比(ORint)置信区间的样本量。通常,Y称为因变量,第一个自变量X称为暴露变量,第二个自变量Z称为混杂变量。

关键词:样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归分析的样本量计算

一、案例数据

某研究者计划探索子宫内膜癌是否与使用雌激素和某基因有关联,已知雌激素与该基因之间存在交互作用,欲估计两者交互作用ORint的置信区间(宽度小于0.9)。已知基线子宫内膜癌发生率为5.0%,研究对象中50%使用过雌激素,40%携带某基因。若估计ORint=1.5、ORyx=6.0、ORyz=4.5、ORxz=2.0,拟建立ORint宽度小于0.9的双侧95%置信区间,试估计所需的样本含量?

二、案例分析

本研究欲调查一个二分类因变量与两个二分类自变量的关系,且两个自变量间存在交互效应,拟建立宽度小于0.9的双侧95%置信区间,采用两个二分类自变量Logistic回归的交互优势比的置信区间法,其样本量计算需要以下几个参数:

  1. 置信度,本例取0.95
  2. 交互优势比(ORint)置信区间宽度,本例取0.9
  3. 基线事件发生率,本例为0.05
  4. 暴露变量X与混杂变量Z的交互优势比(ORint),本例取1.5
  5. 响应变量Y与暴露变量X的优势比,本例取6.0
  6. 响应变量Y与混杂变量Z的优势比,本例取4.5
  7. 暴露变量X与混杂变量Z的优势比,本例取2.0
  8. 暴露变量或混杂变量作用时的样本比例,本例分别为50和40
  9. 脱失率(DR,通常不宜超过20%),本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”— “Logistic Regression (逻辑回归)”—“Binary X (Confidence Interval) (二分类自变量的置信区间)”—“Confidence Intervals for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s (两个二分类自变量Logistic回归的交互优势比的置信区间)”,见图1。

图1

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2):

  1. Solve For:选择“Sample Size”,表示本分析的目的是用于计算样本量。
  2. Interval Type:选择“Two-Sided”,表示使用双侧置信区间。
  3. Confidence Level(1-Alpha):表示置信度CL,即为1-α,本例填0.95。
  4. Width of ORint Confidence Interval:表示ORint的双侧置信区间宽度,即从置信下限到置信上限的距离,范围介于0.2~10.0。本例填0.90。
  5. Baseline Probability P0 [Pr (Y=1|X=0, Z=0)]:当暴露和混杂因素都不存在时,事件发生的基线概率。范围介于0~1。本例填0.05。
  6. ORint (X, Z Interaction Odds Ratio):即暴露变量X与混杂变量Z的交互优势比。范围为0<ORint<∞ (通常为0.1<ORint<10)。本例填1.5。
  7. ORyx (Y, X Odds Ratio):即指定响应变量Y和暴露变量X的优势比,表示研究检测得的效应大小(事件率)的度量。是X=1与X=0时结局Y=1的概率的比值。范围为0<ORyx<∞ (通常为0.1<ORyx<10)。本例填6.0。
  8. ORyz (Y, Z Odds Ratio):即指定响应变量Y和混杂变量Z的优势比,是Z=1与Z=0时结局Y=1的概率的比值。范围为0<ORyz<∞ (通常为0.1< ORyz <10)。本例填4.5。
  9. ORxz (X, Z Odds Ratio):即指定暴露变量X和混杂变量Z的优势比,是Z=1与Z=0时结局X=1的概率的比值。范围为0<ORxz<∞ (通常为0.1< ORxz <10)。本例填2.0。
  10. Percent with X=1:表示X=1时的样本比例,范围为1~99,本例填50。Percent with Z=1:表示Z=1时的样本比例,范围为1~99,本例填40。
图2

(三) 脱失率设置

在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填写10(图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

图3

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果,可知至少需要6268例研究对象。

图4

图4

图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。

图5

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究至少需要6965例研究对象。

图6

图7为此次样本量估算整个过程的详细参数设置汇总。

图7

五、结论

本研究中欲探究响应变量(子宫内膜癌)与暴露变量(使用雌激素)和混杂变量(携带某基因)是否存在关联,两个自变量均为二分类变量,且两者存在交互作用。可知基线子宫内膜癌发生率为5.0%,研究对象中50%使用过雌激素、40%携带某基因。已知ORint=1.5、ORyx=6.0、ORyz=4.5、ORxz=2.0,拟建立ORint宽度小于0.9的双侧95%置信区间,则至少需要6268例研究对象。若考虑10%的脱失率,则至少需要6965例研究对象。

End
文章目录 沉浸式阅读