关键词: GraphPad Prism; 纵列表; ROC曲线; 曲线下面积; AUC
一、 案例介绍
ROC目前常用于预测模型 (多用Logistic模型或Cox模型)的预测效能评价,也可以用于比较一组患者与一组对照组的原始数据。这里通过两个案例来讲解不同情况下ROC曲线的绘制。本案例数据可从“附件下载”处下载。
案例1:GPX4 (谷胱甘肽过氧化物酶)基因是乳腺癌的生物标志物,在正常人中表达量低,而在乳腺癌患者中呈现高表达水平。本例提取99名正常人群和127名乳腺癌 (BRCA)患者的组织,测量GPX4基因的表达水平,评价GPX4基因区分非患者和BRCA患者的能力。部分数据见图1。
案例2:某课题组欲评价X线诊断纵隔淋巴结肿大的准确度。收集某医院放射科医生通过X线采用5分类 ( --、-、±、+、++)评价方法得到的数据,同时采集了患者性别、年龄数据。以病理检查结果作为诊断的金标准,其中110例有纵隔淋巴结肿大 (恶性),90例无纵隔淋巴结肿大 (良性)。部分数据见图2。
二、问题分析
案例1的分析目的是评价GPX4基因能否区分正常组织和BRCA患者乳腺组织,结局为是否发生BRCA,为二分类变量 (是vs.否)。
案例2的分析目的是评价调整协变量后诊断试验的准确性,诊断试验结果为有序变量,结局为采用金标准诊断的是否有纵隔淋巴结肿大,为二分类变量。可采用协变量调整的Logistic模型作为诊断模型,采用ROC曲线评价诊断模型的区分度。
三、软件操作及结果解读
(一) 数据读取
1. 直接录入
打开GraphPad Prism,在弹出的欢迎界面左侧New table & graph (新建表格或图片)中选择Column (纵列表),在Data table (数据表)选择Enter or import data into a new table (在新的数据表中写入数据),在Options (选项)中,选择Enter replicate values, stacked into columns (输入复制值,叠加成列),单击create(创建)(图3)。
在Group A和B列输入需要的数据,代表正常人群组和BRCA患者组 (图4)。
2. 外部导入
用户也可以导入已有的数据,具体过程如下:
(1) 点击上方工具栏file中的import选项 (图5)
(2) 在弹出的对话框的右下角先选择需要导入的数据存放格式 (图6),然后选择用户的目标文件,单击OK
(3) 在随后弹出的对话框Import and Paste Special Choice (导入并粘贴特殊选项,图7)的Linking and embedding (联系和嵌入)中选择Insert data only (仅插入数据)
(4) 点击Import(导入)即可
(5) 将数据表重命名为“GPX4” ,对数据命名有助于日后的文件管理。如有需要,用户可以在Info部分对实验时间、实验编号和项目名称等进行简单描述,或者单击工具栏Sheet选项中的图标,可以在各表单上添加悬浮笔记,记录需要的信息 (图8)。
(6) 点击Data Tables (数据表)下的New Data Table… (新的数据表)以添加新的数据 (图9), 在弹出的欢迎界面左侧New table & graph (新建表格或图片)中选择Multiple variables (多变量),按上述步骤导入案例二数据 (图10)。将数据表重命名为“诊断模型”,对数据命名有助于日后的文件管理。
(二) 案例1数据分析
1. 软件操作
(1) 在工具栏中的Analysis (分析)选项工具组中选择其下的Analyze (分析)命令图标。在新弹出的Analyze Data (数据分析)命令框中,选择Column analyses (纵列表分析),继续选择ROC Curve (ROC曲线)选项,勾选右侧框中A: normal和B: BRCA两个数据集,单击OK (图11)。
(2) 在弹出的ROC曲线参数设置窗口中保持默认选项,单击OK (图12)。
2. 结果解读
GPX4基因诊断的ROC分析结果在Results (结果)中查看。
(1)AUC=0.9798,95%置信区间为0.9659~0.9937,P<0.0001,提示GPX4基因的表达量水平能够有效的区分正常人和乳腺癌患者,有较高的区分度 (图13)。
(2) 在结果部分,GraphPad Prism软件同时给出了各个截断值的灵敏度和特异度,及其他们的95%置信区间。可在Sensitivity & Specificity (灵敏度&特异度)部分查看 (图14)。
(3) ROC曲线在Graphs (图)下的ROC curve: ROC of GPX4 (GPX4的ROC曲线)中查看 (图15)。
3. 图形美化
(1) 在工具栏中的Change (更改)选项工具组中选择其下的命令图标,或双击坐标轴,进入Format Axes (坐标轴格式)界面。
(2) 在Frame and Origin (框架与起始)页面中,在Axes and Colors (轴线与颜色)子命令中对X轴和Y轴的粗细、颜色进行调整。将Frame Style (框架样式)设置为Plain Frame (平面框架, 图16)。
(3) 在工具栏Change(更改)栏中,单击图标或者双击图形绘制区,就可以进入Format Graph (图表样式)界面的Appearance (外观)选项卡中。在这里可以修改图形的颜色,勾选右下角的Show legend (显示图例)复选框 (图17)。
(4)将图例手动修改为AUC=0.980,美化后的ROC曲线见图18。
(三) 案例2数据分析
1. 软件操作
(1)各个变量的类型重新定义(图19),disease (疾病结局)为分类变量,gender (性别)为分类变量,age (年龄)为连续性变量,test (X线测试结果)为分类变量
(2)在工具栏中的Analysis (分析)选项工具组中选择其下的Analyze (分析)命令图标。在新弹出的Analyze Data (数据分析)命令框中,选择Multiple variable analyses (多变量分析),继续选择Multiple logistic regression (多变量logistic回归)选项,勾选右侧框中B: disease,C: gender,D: age和E: test 4个数据集,单击OK (图20)
(3)在参数设置界面下的Model (模型)中可以添加截距项和主效应或交互效应。在Reference level (参考类别)中可以自定义分类变量的参考组。其中在goodness-of-fit (模型拟合好坏)可以选择直接生成AUC,预测2×2矩阵图,每个个体的预测概率等 (图21)。
2. 结果解读
Logistic诊断模型的ROC分析结果在Results (结果)中的Multiple Logistic regression of (多元Logistic回归)诊断模型中查看。
(1)AUC=0.8826,95%置信区间为0.8353~0.9300,P <0.0001,表明调整协变量后的纵隔淋巴结肿大诊断模型有较高的区分度,X线检测能够较好的区分是否有纵隔淋巴结肿大 (图22)。
(2)ROC曲线在Graphs (图)下的ROC curve: Multiple logistic regression of (ROC曲线:多元Logistic回归)诊断模型中查看 (图23)。
3. 图形美化
图形美化同案例1分析,美化后的ROC曲线见图24。
其他更多设置,可以根据需要在相应部分进行操作。