关键词:诊断预测模型质量评价; 预后预测模型质量评价; 临床预测模型质量评价; 预测模型偏倚风险评估; PROBAST
一、临床预测模型研究类型
(一) 根据临床应用场景分类
临床预测模型根据临床应用场景,一般分为诊断模型和预后模型。前者预测个体目前是否处于某种状态的概率,后者预测个体将来是否发生某种结局或出现某种事件(如发病、复发、死亡,伤残及并发症)的概率,其经历的时间短则几分钟,长至几年,其本质是时间纵向性。尽管预测结果的时间不同,但诊断模型和预后模型有许多相似之处,包括:
- 结局的类型通常是二分类的(目标状态或条件是否存在,或结果事件在未来是否会发生);
- 其研究关注点均是综合利用多个预测因素估计个体存在某种特定状态(诊断模型)或未来发生某种结局(预后模型)的概率,以用于个体化决策指导;
- 在模型开发或验证阶段都面临着阈值选择的挑战:虽然诊断模型更多地关注临床相关的阈值对预测性能的评估,但预测模型也需要使用阈值来评估模型性能。
诊断模型和预后模型研究的差异如下:
表1 诊断模型和预后模型研究比较
特点 | 诊断模型 | 预后模型 |
研究目的 | 预测个体目前是否处于某种状态或是否患病的概率,以辅助后续预防、诊断或治疗 | 预测个体将来是否发生某种结局或出现某种事件的概率,以指导个体诊疗决策 |
研究设计 | 横断面研究为优先考虑;对于结局需要随访的,也可采取队列研究;巢式病例对照设计也可,但需要合理调整结局频率 | 前瞻性队列研究为优先考虑;RCT研究也可以,但一般会高估模型区分度;病例队列或巢式病例对照研究也可,但需要合理调整结局频率 |
时间顺序 | 一般要求预测因素和结局指标的测量在同一时间点;对于需要随访的结局,时间间隔太短会造成结局出现太少,间隔太长则结局会发生变化 | 预测因素和结局测量的时间间隔过短或过长都可能导致偏倚 |
适用人群 | 具有症状,怀疑患有某疾病的高危人群 | 目前未患病,关注未来发病情况;或目前已患病,关注未来结局情况 |
预测因子 | 诊断试验或待评估指标 | 预后因素或预后指标 |
结局指标类型 | 二分类 | 二分类、生存数据 |
结局缺失评估 | 失访,部分验证 | 失访,删失 |
建模方法 | Logistic回归模型 | 多为Cox回归模型 |
(二) 根据研究内容或开发、验证过程分类
临床预测模型根据研究内容或开发、验证过程可以分为仅开发、开发加验证(此处指外部验证)、仅验证3类,对应于临床预测模型报告规范TRIPOD声明中的4型6类。其中,仅开发类型包括TRIPOD声明中的1a型、1b型、2a型;开发加验证类型包括TRIPOD声明中的2b型和3型;仅验证类型为TRIPOD声明中的4型
1. 仅开发预测模型
仅开发预测模型研究,无需外部验证。旨在根据特定的数据集确定研究结局的重要预测因素及权重(如,回归系数),并量化该模型在开发集中的预测性能,形成用于个性化决策的预后或诊断模型。有时,模型开发研究也可能侧重于在已建立的预测因子中添加新的预测因子。仅开发预测模型,由于没有经过外部验证,模型过拟合是一个重要问题,特别是在小数据集中。因此,开发研究应包括某种形式的再验证或“内部验证”,以量化模型预测性能中的任何乐观性(偏差)。
仅开发预测模型研究只有一个数据集可用,所有的数据都需要用来建模(对应TRIPOD声明分类中的1型,包括1a、1b),或其中一部分用来建模,另一部分用来进行内部验证(对应TRIPOD声明分类中的2a型)。
- 1a型:数据有限,只有一个数据集可用。基于全部数据建立预测模型,然后使用完全相同的数据直接评估模型的预测能力。由于建模、验证使用同一数据集,通常会高估模型的预测性能。
- 1b型:数据有限,只有一个数据集可用。基于全部数据集建立预测模型,然后使用Bootstrap或交叉验证等重复抽样技术评估预测模型的性能。重复抽样技术通常被认为是“内部验证”,是开展预测模型研究的基本条件与方法,在数据有限的情况下较为常用。
- 2a型:数据相对较多,可被随机分成两组,一组用来建立预测模型,另一组用来评估模型的预测效果。虽然2a型研究被广泛应用,但TRIPOD中认为并不优于1b型,因为2a型对样本利用率不高,可能导致建模和验证过程中的功效不足。
2. 开发加验证预测模型
开发加验证预测模型研究,是指模型开发之后在外部数据集中量化评估模型的预测性能。此时的外部数据集可能是由相同或不同的研究者收集,使用相同的预测因子和相同或不同的结局定义及测量,包括:(1)从较晚的时间段采样(时间验证)的数据;(2)在别的地区(地理验证)采集的数据;(3)研究对象类似,但来自不同环境的数据(如,在二级护理环境中开发的模型,在初级护理环境中验证);(4)不同研究对象的数据(如,在成人中开发的模型,在儿童中验证)。将单个数据集随机分为开发和验证数据集通常被误认为是外部验证的一种形式,但实际上是内部验证的一种低效形式,因为以这种方式创建的两个数据集几乎一样,并且还会导致模型开发的样本量减少。当已开发的模型在其他外部数据中验证性能不佳时,可以通过手头数据集对模型进行调整(如重新校准基线风险或预测因子的权重)或向现有模型中添加新的预测因子来更新模型。这两种情况实际上都是在对现有模式进行外部验证之后,开发新的模式。
开发加验证预测模型包括TRIPOD声明分类中的两种情况,一种是只有一个数据集可用,其中一部分用来建模,另一部分用来进行外部验证(对应TRIPOD声明分类中的2b型);另一种是有多个数据集可用,使用一个数据集建立预测模型,另一个或多个完全不同数据集用于评估模型的预测效果(对应TRIPOD声明分类中的3类)。
- 2b型:数据相对较多,可被非随机地分为两组,一组用于建立预测模型,另一组用来评估模型地预测效果。TRIPOD认为2b型研究优于2a型,因为它允许2个数据集之间的非随机变化,此时对模型外推能力的验证结果更为稳健。
- 3型:数据较多,有2个以上数据集可用。使用一个数据集建立预测模型,另一个或多个不同数据集用于评估模型的预测效果。比如开展前后两个独立的研究,一个用于建模,另一个用于验证。
3. 仅验证预测模型
仅验证预测模型研究旨在利用开发模型样本外部的数据(即来自不同时间或地点或人群的数据),评估现有模型的预测性能。对应于TRIPOD声明分类中的4型,仅针对现有(已发表)的预测模型,在独立数据集上评价其预测效果。
二、PROBAST适用的系统评价问题
PROBAST工具常运用于以下针对临床预测模型的系统评价类型:
- 特定的目标人群:如系统评价普通人群中2型糖尿病发病风险的预后模型,或系统评价急性脑卒中患者的预后模型
- 特定的临床结局:如系统评价患者静脉血栓栓塞的诊断模型,或系统评价患者日常活动能力丧失的预后模型。
- 特定的临床领域:如系统评价所有生殖医学领域的预后模型,或系统评价所有创伤性脑损伤急性护理领域的预后模型。
- 特定的的预测模型:如对EuroSCORE模型(一种预测心脏手术后死亡率的模型)所有外部验证的预测性能进行系统评价,或系统评价比较各种预后模型对一般中年人群个体发生心血管疾病的预测性能,包括这些模型的所有验证研究。
- 特定预测因子:如系统评价将C-反应蛋白加入到Framingham风险模型中带来的模型预测能力提升,或颈动脉成像对现有心血管病风险预测模型预测能力提升的系统评价。
三、预测模型的性能指标
临床预测模型的性能评估常包括区分度、校准度、临床效益和重分类指标4个方面。开发预后模型时,可能面临多个时间节点下的生存情况,则需对模型的性能进行多次评估。
(一) 区分度
区分度(Discrimination)指模型判断预测事件发生与否或目标状态存在与否的能力,良好区分度的模型,可将发生事件组的风险得分与未发生事件组的风险得分尽可能分散开。常用的区分度指标包括一致性统计量(Concordance statistics),也称C统计量(C-statistics)和区分斜率。C统计量表示模型对于随机选择一对事件和非事件的患者,正确判断哪个风险更高的能力。C 统计量取值范围为0~1之间,较高的值表示较好的区分能力,0.5表示没有区分能力,越接近1表示区分能力越高,小于0.5表示模型预测与实际结果相反。区分度还应考虑结局事件的变量类型,如果结局变量是二分类,C统计量等同于受试者工作特征曲线(ROC)下面积(AUC);如果是事件-时间变量,常用Harrell’s C统计量、Uno’s C统计量(多用于删失数据较多的情况下)和时间依赖C统计量(用于评价特定时间点的模型区分度)。
区分斜率用于描述预测模型中特定指标(例如连续变量)与结局指标之间的关系,在临床预测模型中能根据个体特征或子群之间的差异对斜率进行个性化解释和应用,提高模型的准确性和个体化的临床决策能力。
(二) 校准度
校准度(Calibration)反应了模型预测值与实际观察值之间的一致性。校准度最好以校准曲线的形式报告,x轴表示预测风险,y轴表示实际事件比例。该图通常将预测风险等分十份绘制,并且在整个预测值范围内通过平滑线来显示。校准度较好的模型,散点应沿45°斜线排列,校准曲线越靠近斜线,表示一致性越好。Logistic和Cox回归预测模型都可以绘制校准曲线。校准曲线可展示整个预测概率范围内模型任何误差的方向和幅度,可将其与校准斜率和截距结合使用。
校准度也可以通过Hosmer-Lemeshow拟合优度检验和Brier评分进行评估,但前者对评估不良校准的适用性有限,并且对组数和样本量很敏感:对于小数据集通常不显著,而对于大数据集几乎总是显著,因此一般不推荐单独报告此检验结果。仅报告Hosmer-Lemeshow检验,而未报告校准图或校准表格,并不能提供预测风险准确性的有用信息(见信号问题4.7)。Brier评分适用于二分类结局变量,取值范围为0~0.25,越接近0表示模型预测准确性越高,等于0.25时表示模型没有预测能力。
区分度和校准度是预测模型两个最为核心的性能指标,一个优秀的预测模型应同时具备较高的区分度和校准度。一般而言,区分度是前提,若区分度较差,通常无法获得较好的校准度;区分度较好,校准度不佳,可以通过重新校准提高模型表现。
(三) 临床效益
临床效益通过确定阈值、评估净收益和制定决策规则来评估预测模型的实用性和经济效益,与临床实践密切相关。临床预测模型研究常通过决策曲线分析(decision curve analysis, DCA)评估预测模型在实际决策中的效果并确定最佳的决策阈值。在决策曲线中,只有模型的曲线在全部干预(治疗)和全部不干预两条线之上,临床效益才有应用价值,并根据净收益情况确定最佳阈值概率。
(四) 重分类指标
重分类指标主要用于评估新预测因子的预测增量值或用于新旧预测模型比较并衡量模型的改进和增益,包括净重分类指数(net reclassification index, NRI)和综合判别改进指数(integrated discrimination improvement, IDI),前者又包括分类NRI和连续NRI。NRI衡量了改进模型相对于基准模型在重新分类中的净改善情况,考虑了事件和非事件的正确分类以及错误分类的情况,可以评估改进模型的分类准确性。分类NRI受分组数量和分组阈值的影响。连续NRI不受分组的影响,应预先确定分组的阈值;对于事件组和非事件组,应始终分别报告NRI的两个组成部分,即NRI(+)和NRI(-),以便可以根据需要来分别解读模型在事件组和非事件组中的改进或根据重要程度对两部分进行重新加权。当每个预测的个体以自己作为一个单独风险分层时,分类NRI为连续NRI,连续NRI不受分组的影响。IDI不依赖风险分类,而是综合所有风险预测值的变化,与连续NRI不同的是,IDI不仅依据是否增加或降低,还计算增加或降低的程度,通过计算改进模型和基准模型的预测概率之间的差异得到综合指标,以反映改进模型相对于基准模型在整体区分能力上的提升程度。
本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies (https://pubmed.ncbi.nlm.nih.gov/30596875/),或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration (https://pubmed.ncbi.nlm.nih.gov/30596876/)。