提高诊断试验效率：多变量综合诊断——SPSS软件实现

2022年5月30日星期一发布于 12:37:17 浏览：9241

原创不易，转载请注明来源，感谢！

附件下载：

1653885433-多变量综合诊断分析结果.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

临床疾病多种多样，疾病的表现也纷繁复杂。疾病的诊断通常需要结合患者的症状、体征、实验室检查、影像检查等多方面的结果综合判断。本文以logistic回归模型为例简要介绍多变量综合诊断分析基于SPSS软件的实现过程。

关键词：诊断试验; 多变量综合诊断; logistic回归

由于多个指标之间通常具有一定的互补作用，所以利用多个指标进行综合诊断能够在一定程度上提高诊断的准确度。在进行多指标联合诊断时，对于具有明确诊断阈值或定性诊断的情况，可以使用平行诊断和序贯诊断提高诊断试验效率；对于检测结果为定量或有序的情况，使用多变量诊断模型更为合适。临床医生可以选择合适的多变量模型(如logistic回归等)或机器学习方法(如支持向量机、随机森林等)构建诊断模型。

一、案例简述

某课题组预通过就诊者的基本特征、实验室检查等多个指标判断其是否患有肺癌，并评价该综合诊断方法的准确度。研究共纳入424例就诊者，诊断指标包括就诊者的年龄、是否吸烟、是否饮酒、肿瘤标志物A；肺癌诊断的金标准为穿刺活检病理检查。部分数据见图1，本文案例可从“附件下载”处下载。

二、问题分析

本案例的分析目的是评价通过就诊者的基本特征、实验室检查等多个指标综合诊断是否患肺癌的准确性，可以金标准诊断结果为因变量，多个诊断指标为自变量构建logistic回归模型，然后根据该多变量诊断模型计算得到的预测值绘制多变量综合诊断的ROC曲线，通过ROC曲线下面积评价模型准确性。

三、软件操作及结果解读

(一) 软件操作

1. 单因素分析

打开SPSS软件，导入数据如图2所示。

将“ID”、“age”、“smoking”、“drinking”和“disease”设为“名义”变量，“marker_A”设为“标度”变量，并为相应变量名称和水平设置中文标签。如图3所示。

进行二分类logistic回归分析首先需要进行适用条件判断，然后依据先单因素分析后多因素分析的原则进行模型构建。关于二分类logistic回归分析操作步骤参照(二分类logistic回归分析(Binomial Logistic Regression Analysis)——SPSS软件实现)。本案例的单因素分析结果见图4—图7，结果显示，性别、是否吸烟和肿瘤标志物A与肺癌发生相关(P<0.1)，是否饮酒与肺癌发生无关(P=0.116>0.1)，所以在多因素分析中将变量“age”、“smoking”、“marker_A”作为自变量进行logistic回归分析。

2. 生成预测概率

根据单因素分析结果进行多因素分析，点击“分析”—“回归”—“二元Logistic”(图8)。

在“Logistic回归”对话框中将变量“金标准诊断结果”选入“因变量”，变量“年龄”、“是否吸烟”和“肿瘤标志物A”选入“块1/1”(图9)。

在“Logistic回归”对话框中点击右侧“分类”，在“定义分类变量”子对话框中将左侧协变量框中的分类变量“年龄”和“是否吸烟”选入右侧“分类协变量”框中。SPSS中默认以分类变量的最后一类作为参照，为了让结果更便于解释，将两个变量均改为以第一个类别(较低年龄组、不吸烟)作为参照组：选中右下方“参考类别”中的“第一个”，然后点击上方的“变化量”。此时可以发现“分类协变量”框中的两个变量名称后出现“指示符(first)”，即表示后续分析中将以该分类变量的第一个分类作为参照(图10)，点击“继续”回到“Logistic回归”对话框。

在“Logistic回归”对话框中点击右侧“保存”，在“保存”子对话框中勾选“预测值”部分的“概率”(图11)，表示将生成一个通过Logistic回归模型诊断肺癌概率的新变量，点击“继续”回到“Logistic回归”对话框。

在“Logistic回归”对话框中点击右侧“选项”，在“选项”子对话框中勾选“统计和图”部分的“Exp(B)的置信区间”，置信区间默认值为95%(图12)，完成此操作后将在结果中输出OR值的95%置信区间，点击“继续”回到“Logistic回归”对话框，最后点击“确定”则完成Logistic分析。

完成Logistic回归分析后会发现在数据视图中新生成变量“PRE_1”(图13)，该变量表示多变量诊断模型预测的患病概率，下一步将利用该变量进行ROC分析。

3. ROC分析

点击“分析”-“分类”-“ROC分析”(图14)。

在“ROC分析”对话框中将变量“预测概率”选入右侧“检验变量”框。如果想对单变量诊断和多变量综合诊断准确性进行比较，可同时将变量“年龄”、“是否吸烟”和“肿瘤标志物A”也同时选入“检验变量”框。然后将“金标准诊断结果”选入右侧“状态变量”框，并在其下方的“状态变量值”输入表示诊断结果为阳性的赋值，此处输入“1”(图15)。

在“ROC分析”对话框点击右侧的“显示”后出现“ROC分析：显示”对话框。在“图”部分勾选“ROC曲线”及其下方的“带对角参考线”，在“打印”部分勾选“标准误差和置信区间”，然后点击“继续”(图16)，回到主对话框后点击“确定”就可以得到ROC分析结果。

(二) 结果解读

图17是Logistic回归分析的结果，该模型结果显示“年龄”、“是否吸烟”和“肿瘤标志物A”都与“是否发生肺癌”有统计学关联(P<0.05)，高年龄组的肺癌发生风险是低年龄组的5.036 (95%CI：2.944~8.613)倍，吸烟者的肺癌发生风险是不吸烟者的6.925 (95%CI：4.126~11.622)倍，肿瘤标志物A每增加一个单位，肺癌发生风险增加52.1% (OR=1.521，95%CI：1.303~1.777)。据此，可得到每个就诊者根据“年龄”、“是否吸烟”和“肿瘤标志物A”三个因素，诊断“是否患肺癌”的危险得分Logit(P)：

Logit(P) = -4.068 + 1.617×年龄 + 1.935×是否吸烟(不吸烟=0，吸烟=1)+ 0.420×肿瘤标志物A

然后可以按照以下公式计算得到每一个就诊者患肺癌的预测概率：

\(P=\frac{e^{\operatorname{Logit}(P)}}{1+e^{\operatorname{Logit}(P)}}\)

图18是通过单变量诊断和多变量综合诊断的ROC曲线，从图中可以大致看出综合诊断的曲线下面积明显大于单变量诊断。

图19显示了单变量诊断和多变量综合诊断各方法对应的ROC曲线下面积及其95%CI。其中综合诊断曲线下面积为0.859 (95%CI：0.823~0.896)，三个单变量诊断曲线下面积均不足0.8，此处没有给出各单变量诊断和多变量诊断曲线下面积统计推断是否有差异的P值，但从各面积的统计值及其95%CI可以看出，单变量诊断曲线下面积显著小于多变量综合诊断。SPSS不能在ROC分析模块中直接给出各诊断模型ROC曲线下面积比较的P值，只能通过曲线下面积统计值及其95%CI进行推断。如果希望可以直接得到各ROC曲线下面积相互比较的P值，可以通过MedCalc软件实现(提高诊断试验效率：多变量综合诊断分析——MedcalcSPSS软件实现)。

四、结论

分析结果显示，通过就诊者的基本信息、实验室检查结果等多变量的信息可以构建logistic回归模型进行疾病的诊断，该诊断方法的ROC曲线下面积为0.859 (95%CI：0.823~0.896)，可以认为该诊断试验准确性较高。。

五、知识小贴士

(一) 预测模型

多变量预测模型分为两大类：诊断模型和预后模型。两者的主要区别是时间的概念。诊断模型是多个预测因素(通常为诊断测试结果)被组合在一起来估计预测时，是否存在某种疾病或状况的概率，通常是横断面的。而预后模型是多个预测因素被结合起来估计未来某个时期发生特定事件(如死亡、疾病复发、出现并发症等)的概率，通常是纵向的。个体预后或诊断的多变量预测模型的透明报告 (TRIPOD)是为了改进不论以诊断或预后为目的而开发、验证或更新预测模型的研究报告。质量较高的多变量预测模型都会遵循TRIPOD的指导研究。

(二) 变量筛选

本案例分析结果显示利用多变量进行ROC诊断的效率优于单变量，其实这是建模中普遍存在的真理，即随着纳入变量的增多，诊断模型的准确性总会变得越高。但在多变量模型构建时并不是纳入变量越多越好，因为要从专业角度综合考虑，纳入有专业意义且影响较大的变量，要避免出现过度拟合从而影响模型外推。同时从模型的实用性角度考虑，因为预测概率需要通过模型计算得出，而非可观测的指标，纳入变量越多，模型越复杂，计算难度越大，不利于模型推广。

(三) 模型验证

评价多变量诊断模型的诊断准确度，可以采用内部数据验证的方法，即通过建立预测模型，比较不同组之间预测值分布之间的差别，或者使用交叉验证(LOO-CV)的方法，但更可信的方法是使用前瞻性研究数据验证诊断准确度。为了避免模型的过度拟合，有些模型必须要进行外部数据验证，III期诊断试验的评价需要使用外部数据进行验证。

(四) 模型应用

上述模型需要通过将就诊者各参数信息代入公式后计算得到Logit(P)，再通过与模型截断值比较，做出是否患病的判断。

我要纠错

End

提高诊断试验效率——联合试验

提高诊断试验效率：多变量综合诊断——MedCalc软件实现