关键词:样本量计算; PASS; 回归分析; 直线回归; 直线回归斜率比较的样本量计算
一、案例数据
在研究正常儿童的尿肌酐含量(Y)与年龄(X)之间关系的直线回归中,根据以往的研究,假设尿肌酐含量(Y)的标准差为1.80,年龄(X)的标准差为1.50。研究者认为斜率至少为0.5,否则尿肌酐含量(Y)与年龄(X)之间关系太弱。取双侧α=0.05、β=0.10,问研究所需的样本含量为多少?
二、案例分析
欲研究儿童的尿肌酐含量(Y)与年龄(X)之间关系,通过以往研究,Y的标准差为1.80,X的标准差为1.50,两变量之间相关系数至少为0.5,宜采用直线回归斜率的假设检验,需要以下几个参数:
- X值的样本标准差SX。
- Y的标准差的估计值SY。
3. 设定检验的斜率值β1。
4. 检验水准α (通常取0.01至0.1,本例为0.05)。
5. 检验功效1-β (通常为0.80或更高,本研究取0.90)。
6. 脱失率DR (通常不宜超过20%,本例取10%)。
三、软件操作
(一) 方法选择
在左侧界面中依次选择“Procedures (程序)”—“Regression (回归)”—“Linear Regression (线性回归)”—“Linear Regression (线性回归)”见图1。
(二) 参数设置
在“Design (设置)”模块中按以下参数设置相应选项(图2):
① Solve For:“Sample Size”表示本分析的目的是用于计算样本量。
② Test:“Alternative Hypothesis”表示可供选择的假设检验,本例选择“Two-Sided”双侧检验。
③ Power and Alpha:Power为把握度,填写“0.90”;Alpha为检验水准,填写“0.05”。
④ Effect Size:“Slope”直线回归斜率,“B0(Slope|H0)”设定H0下斜率的检验假设值β0,该值通常为0,本例填写“0”;“B1(Slope|H1)”设定检验的斜率值,本例为“0.5”。
⑤ Standard Deviation of X’s:“SX(Standard Deviation of X’s)”设定X值的样本标准差SX,本例为1.50。
⑥ Residual Variance Calculation:“Residual Variance Method”表示选择残差 标准差的计算方法,PASS提供了3种方法指定残差的标准差,可选择“SY(Std.Dev.of Y)”(根据Y的标准差估计值SY指定残差标准差)、“R (Correlation)”(根据Y和X之间的相关性估计值指定残差标准差)和“S (Std.Dev.of Residual)”(输入残差标准差的估计值)。本例选择“SY(Std.Dev.of Y)”,“SY (Standard Deviation of Y)”表示Y的标准差估计值SY,该值可以从以往研究、预实验得到,本例填“1.80”。
(三) 脱失率设置
在“Reports (结果报告)”模块中,勾选“Show Dropout-Inflated Sample Size Report (报告脱失样本量)”,在“Dropout Rate”中填写“10%”(图3),表示按照10%的脱失率计算样本量。设置好上述参数后点击“Calculate (计算)”。
四、结果及解释
图4列出了该研究设计的相关参数和样本量计算结果,可知计算的样本例数(N)为53。
图5“References (参考文献)”列出了该计算过程中参考的相关文献;“Report Definitions (报告定义)”列出了各个参数的具体解释;“Summary Statements (报告概述)”为整个分析报告的摘要。
图6“Dropout-Inflated Sample Size (脱失样本量)”为考虑了脱失率的样本量(N'),也是研究实际开展过程中需要达到的最低样本量,本研究中至少需要59例儿童。
图7为此次样本量估算整个过程的详细参数设置汇总。
五、结论
该案例为根据直线回归斜率进行样本含量计算。欲研究儿童尿肌酐含量(Y)与年龄(X)之间的关系,假设Y的标准差为1.80,X的标准差为1.50。研究者认为斜率至少为0.5,否则Y与X之间关系太弱。取双侧α=0.05、β=0.10,则需要纳入53例儿童进行研究。若考虑10%的脱失率,则至少需要纳入59例儿童进行研究。