医学研究字回归分析的样本量计算——两个二分类自变量Logistic回归交互优势比的置信区间法

2022年4月5日星期二发布于 20:37:53 浏览：3465

原创不易，转载请注明来源，感谢！

前面介绍了“医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归优势比的置信区间法”，本文主要介绍交互优势比的置信区间(Confidence Intervals for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s)的样本量估计。适用于计算模型中有两个二分类自变量(X和Z)，且两者存在交互作用并使用Wald检验计算交互优势比(OR_int)置信区间的样本量。通常，Y称为因变量，第一个自变量X称为暴露变量，第二个自变量Z称为混杂变量。

关键词：样本量计算; PASS; 回归分析; Logistic回归; 两个二分类自变量Logistic回归分析的样本量计算

一、案例数据

某研究者计划探索子宫内膜癌是否与使用雌激素和某基因有关联，已知雌激素与该基因之间存在交互作用，欲估计两者交互作用OR_int的置信区间(宽度小于0.9)。已知基线子宫内膜癌发生率为5.0%，研究对象中50%使用过雌激素，40%携带某基因。若估计OR_int=1.5、OR_yx=6.0、OR_yz=4.5、OR_xz=2.0，拟建立OR_int宽度小于0.9的双侧95%置信区间，试估计所需的样本含量？

二、案例分析

本研究欲调查一个二分类因变量与两个二分类自变量的关系，且两个自变量间存在交互效应，拟建立宽度小于0.9的双侧95%置信区间，采用两个二分类自变量Logistic回归的交互优势比的置信区间法，其样本量计算需要以下几个参数：

置信度，本例取0.95
交互优势比(OR_int)置信区间宽度，本例取0.9
基线事件发生率，本例为0.05
暴露变量X与混杂变量Z的交互优势比(OR_int)，本例取1.5
响应变量Y与暴露变量X的优势比，本例取6.0
响应变量Y与混杂变量Z的优势比，本例取4.5
暴露变量X与混杂变量Z的优势比，本例取2.0
暴露变量或混杂变量作用时的样本比例，本例分别为50和40
脱失率(DR，通常不宜超过20%)，本例取10%

三、软件操作

(一) 方法选择

在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”— “Logistic Regression (逻辑回归)”—“Binary X (Confidence Interval) (二分类自变量的置信区间)”—“Confidence Intervals for the Interaction Odds Ratio in Logistic Regression with Two Binary X’s (两个二分类自变量Logistic回归的交互优势比的置信区间)”，见图1。

(二) 参数设置

在“Design (设置)”模块中按以下参数设置相应选项(图2)：

Solve For：选择“Sample Size”，表示本分析的目的是用于计算样本量。
Interval Type：选择“Two-Sided”，表示使用双侧置信区间。
Confidence Level(1-Alpha)：表示置信度CL，即为1-α，本例填0.95。
Width of OR_int Confidence Interval：表示OR_int的双侧置信区间宽度，即从置信下限到置信上限的距离，范围介于0.2~10.0。本例填0.90。
Baseline Probability P₀ [Pr (Y=1|X=0, Z=0)]：当暴露和混杂因素都不存在时，事件发生的基线概率。范围介于0~1。本例填0.05。
OR_int (X, Z Interaction Odds Ratio)：即暴露变量X与混杂变量Z的交互优势比。范围为0<OR_int<∞ (通常为0.1<OR_int<10)。本例填1.5。
OR_yx (Y, X Odds Ratio)：即指定响应变量Y和暴露变量X的优势比，表示研究检测得的效应大小(事件率)的度量。是X=1与X=0时结局Y=1的概率的比值。范围为0<OR_yx<∞ (通常为0.1<OR_yx<10)。本例填6.0。
OR_yz (Y, Z Odds Ratio)：即指定响应变量Y和混杂变量Z的优势比，是Z=1与Z=0时结局Y=1的概率的比值。范围为0<OR_yz<∞ (通常为0.1< OR_yz<10)。本例填4.5。
OR_xz (X, Z Odds Ratio)：即指定暴露变量X和混杂变量Z的优势比，是Z=1与Z=0时结局X=1的概率的比值。范围为0<OR_xz<∞ (通常为0.1< OR_xz<10)。本例填2.0。
Percent with X=1：表示X=1时的样本比例，范围为1~99，本例填50。Percent with Z=1：表示Z=1时的样本比例，范围为1~99，本例填40。

(三) 脱失率设置

在“Reports (结果报告)”模块中，勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”，在“Dropout Rate”中填写10(图3)，表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。

四、结果及解释

图4列出了该研究设计的相关参数和样本量计算结果，可知至少需要6268例研究对象。

图4

图5“References (参考文献)”列出了该计算过程中参考的相关文献；“Report Definitions (报告定义)”列出了各个参数的具体解释；“Summary Statements (报告概述)”为整个分析报告的摘要。

图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N')，也是研究实际开展过程中需要达到的最低样本量，本研究至少需要6965例研究对象。

图7为此次样本量估算整个过程的详细参数设置汇总。

五、结论

本研究中欲探究响应变量(子宫内膜癌)与暴露变量(使用雌激素)和混杂变量(携带某基因)是否存在关联，两个自变量均为二分类变量，且两者存在交互作用。可知基线子宫内膜癌发生率为5.0%，研究对象中50%使用过雌激素、40%携带某基因。已知OR_int=1.5、OR_yx=6.0、OR_yz=4.5、OR_xz=2.0，拟建立OR_int宽度小于0.9的双侧95%置信区间，则至少需要6268例研究对象。若考虑10%的脱失率，则至少需要6965例研究对象。

我要纠错

End

医学研究之回归分析的样本量计算——两个二分类自变量Logistic回归优势比的置信区间法

医学研究之回归分析的样本量计算——单因素或多因素Logistic回归