关键词:诊断预测模型质量评价; 预后预测模型质量评价;临床预测模型质量评价;预测模型偏倚风险评估;PROBAST
一、临床预测模型介绍
预测是指估计当前未知事物的发生概率,在医学研究中,预测通常涉及诊断预测(预测个体目前是否处于某种状态的概率)或预后预测(预测个体将来是否发生某种结局的概率)。临床预测研究包括预测因子研究、预测模型研究(模型开发、验证和扩展或更新)以及预测模型影响研究。预测因子研究也称为风险因子或预后因子研究,旨在确定哪些预测因素(如年龄、疾病分期或生物标志物)能独立诊断或预后结局。预测模型研究是指综合利用多个预测因素估计个体存在某种特定状态(诊断模型)或未来发生某种结局(预后模型)的概率;预测模型也叫风险预测模型、预测指数或风险评分,一般分为诊断预测模型和预后预测模型。预测模型影响研究是指评估使用模型指导临床诊疗或护理康复的效果,多使用对比设计,如使用随机试验研究模型对临床决策、患者结局或医护成本的影响。
系统评价对循证医学和临床指南的制定具有重要作用,是干预研究和诊断试验最可靠的证据形式。预测模型的系统评价是一个较新且不断发展的领域,越来越多的研究开始系统地评估和总结反应预测模型性能的证据。目前已有的与预后研究质量评价有关的工具包括针对预后研究(预测因子)的质量评价工具QUIPS (quality in prognosis studies)、针对诊断试验准确性研究的质量评价工具QUADAS-2 (quality assessment of diagnostic accuracy studies)、针对随机对照研究的质量评价工具RoB 2.0 (Risk of Bias 2.0)、针对非随机对照研究质量评价的工具ROBINS-Ⅰ(Risk Of Bias In Nonrandomized Studies of Interventions)。但这些工具均是针对特定的研究设计研发的偏倚风险评估工具,如QUIPS针对的是旨在发现独立危险因素的预后研究,QUADAS-2针对的是利用单一诊断方法的诊断实验,RoB 2.0和ROBINS-Ⅰ针对的是旨在评价有效性或安全性的随机或非随机对照研究。上述研究的目的都不是为了构建多因素预测模型,因此并不能针对临床预测模型研究的质量进行评价。在预测模型开发和验证中,研究设计、实施和分析中的局限性都可能影响模型预测能力并导致偏倚的产生,因此需要开发针对临床预测模型质量评价的工具。
二、PROBAST工具概述
荷兰乌得勒支大学Moons教授牵头的38位学者,在借鉴随机对照研究、诊断试验和系统综述偏倚风险评估工具的基础上,经过范围定义、证据评估、德尔菲法和多次预实验,提出了预测模型研究的偏倚风险评估工具(Prediction model Risk Of Bias ASsessment Tool, PROBAST)。PROBAST包括研究对象、预测因素、结局和分析4个领域共20个信号问题,对预测模型设计、实施和分析过程中可能产生的偏倚风险和适用性进行评价。通过综合分析,对原始研究每个领域和整体的偏倚风险和适用性做出判断,分为高、低或未知三类。PROBAST为个体预测模型开发、验证和更新提供了可靠的新评价工具,不仅可以用于预测模型的系统综述,也可作为预测模型研究通用的方法学评价工具。
PROBAST的潜在使用者包括卫生政策决策者、系统评价人员、对循证医学感兴趣或参与指南制定的研究人员、临床医生,以及需要批判性地评价预测模型研究的期刊编辑、审稿人和读者。
三、PROBAST工具的使用
利用PROBAST工具开展预测模型的系统评价时,偏倚风险的评估一般包括以下4步:
- 明确系统评价的问题;
- 区分预测模型研究的类型;
- 评估各领域偏倚风险和适用性;
- 对偏倚风险和适用性进行总体判断。
其中,步骤1对每个研究进行一次评价,步骤2需要对研究中每个相关结局的模型完成一次评价,而步骤3和4需要对研究中每个不同预测模型的开发和验证单独进行一次评价,见表1。
表1 使用PROBAST评价临床预测模型研究质量的四个步骤
步骤 | 任务 | 完成时间截点 |
1 | 明确系统评价的问题 | 对每个研究进行一次评价 |
2 | 区分预测模型研究的类型 | 对研究中每个相关结局的模型完成一次评价 |
3 | 评估各领域偏倚风险和适用性 | 对每个不同预测模型的开发和验证单独进行一次评价 |
4 | 对偏倚风险和适用性进行总体判断 | 对每个不同预测模型的开发和验证单独进行一次评价 |
(一) 步骤1:明确系统评价的问题
首先,评价人员需要根据预测模型的使用目的、研究对象、预测因素和预测结局来确定系统评价的具体问题。建议使用结构化的报告方式(见表2)以便后期开展适用性评估,具体可参考预测模型研究系统评价的关键评价和数据提取表(CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling Studies, CHARMS)。每次系统评价均需要明确系统评价的问题,并按表3示例,完成每个研究的信息记录。
表2 临床预测模型系统评价问题确定原则(PICOTS原则)
条目 | 内容 |
P (Population, 研究对象) | 定义为:预测模型中的目标人群 |
I (Index, 待评价模型) | 定义为:待评价的预测模型 |
C (Comparator, 对比模型) | 如果涉及的话,定义为:与待评价预测模型对比的其他预测模型 |
O (Outcome[s], 预测结局) | 定义为:待评价的预测结局 |
T (Timing, 时间) | 定义为:在什么时候(如,在患者检查过程中),使用预测模型,或在什么时间段内预测结局(适用于预后模型) |
S (Setting, 环境) | 定义为:预测模型的预期临床使用环境和预期用途 |
表3 使用PROBAST开展预测模型质量评价步骤一中问题确定信息表示例
要素 | 具体问题 |
模型的使用目的 | 用于临床预后预测,如在急症室就诊时预测患者预后 |
研究对象,包括纳排标准和环境 | 如,在医院急症室就诊的有严重出血风险或在8小时内有严重出血风险的创伤患者 |
用于构建预测模型的预测因素,包括预测因素的类型(如,病史、临床检查、生化标记物、影像学检查),检测时间,具体的检测过程(如,设备、试剂、检测方法) | 如,患者的人口统计学信息、体格检查变量、损伤特征、受伤至检查的时间间隔等均在医院急症室就诊时测量 |
预测结局 | 受伤后28天内死亡 |
(二) 步骤2:区分预测模型研究的类型
不同的信号问题适用于不同类型预测模型的评估,每个模型按其研究内容可以分为“仅开发”“开发加验证”和“仅验证”3类,如果预测模型不符合这些分类之一,则不应使用PROBAST评价其质量。需要注意几下几点:
- 此处模型验证特指外部验证,即采用独立于模型开发时所用训练数据集的新数据集;
- 模型更新或参数调整视为构建新模型;
- 每个预测模型都要单独评价1次,如同时报告模型开发及验证或模型验证及更新时,需要进行拆分分别评价。
需要对每个研究中按照每个结局的模型区分研究的类型,并按表4示例,完成表格信息记录。
表4 使用PROBAST开展预测模型质量评价步骤二中区分研究类型信息表
预测模型研究类型 | 定义 |
仅开发 | 无需外部验证的预测模型开发,可能包括内部验证方法,如bootstrap法和交叉验证 |
开发加验证 | 预测模型的开发过程中,对其他文章构建的模型进行了外部验证 |
仅验证 | 仅外部验证现有(先前开发的)模型 |
(三) 步骤3:偏倚风险和适用性评价
PROBAST将预测模型研究中所涉及的潜在偏倚分为研究对象、预测因素、结局和分析4个领域(domain),每个领域包含用来支持判断的信息、信号问题、偏倚风险的判断和判断的推理过程4个方面。
首先对每个信号问题进行判断,结果分为“是(Yes, Y)”“可能是(probably yes, PY)”“可能不是(probably no, PN)”“否(no, N)”或“未提供信息(no information, NI)”。“是”代表低偏倚风险,“否”代表高偏倚风险。若原始研究中确实未介绍相关信号问题的内容,判断为“未提供信息”。若原始研究中提供的信息不足以得出确定的判断,可归为“可能是”或“可能不是”。信号问题的回答有助于评估者对每个域的总体风险偏倚做出判断。所有信号问题均回答为“是”“可能是”,该领域被判定为低风险。一个或多个信号问题回答为“否”“可能否”,该领域被判定为高风险。“未提供信息”表示信息不足,一般判定为“不清楚”,但并不意味着肯定存在高风险偏倚,需要根据具体情况进行综合判断。如,在一项预后研究中,在结局事件发生和测量前明确了预测因子,但报告未说明预测因子测量是否对结局设盲,该问题(见信号问题2.3)实际上被评定为“未提供信息”。然而,评估者仍可能判断该领域的总体偏倚风险较低,因为可以推断预测因子在结局发生前很长时间内就已测量。因此,在判断特定领域的偏倚风险时,评估者需要基于自己的经验来确定信号问题是否可能在模型开发或验证中引入偏倚。
每个领域的偏倚风险评估借鉴了“短板理论”,只有该领域所有信号问题都回答“是”或“可能是”才视为“低风险”,只要有1个信号问题回答“否”或“可能不是”就有可能为“高风险”,当某个信号问题被判断为“未提供信息”而同时其他信号都为“低风险”时,则该领域归为“不清楚”。
预测模型的适用性评价包含前3个领域,判断过程与偏倚风险相似,但没有信号问题。需要对研究中每个不同预测模型的开发和验证单独评价步骤3。
(四) 步骤4:总体判断
在步骤3各个领域偏倚风险评价的基础上,可以对预测模型整体偏倚风险进行评估,评估结果也分为低、高或不清楚。与各个领域评估一样,对于整体偏倚风险,只有每个领域都评为“低风险”才将整体视为“低风险”,只要1个领域被评为“高风险”就视为高风险,若某个领域被评为“不清楚”而同时其他领域都为“低风险”时,则整体归为“不清楚”。此外,对于模型开发研究,即便4个领域都评为低风险,若没有外部验证仍为高风险;但模型验证研究,只要被验证模型的构建是基于庞大数据集且构建时进行了内部验证,仍可认为整体属于低风险(见表5)。
同样,基于步骤3各个领域适用性评价的基础上,可以对预测模型整体的适用性进行评价,评估结果也分为低、高或不清楚。对于研究对象、预测因素和结局3个领域,只有当所有领域都为低风险时,整体才判断为“低风险”,如果有1个或多个领域判断为高风险,则整体归为“高风险”。若某个领域判断为“不清楚”且所有其他领域都为低风险时,则整体归为“不清楚”(见表5)。
表5 使用PROBAST开展预测模型质量评价步骤五中偏倚风险总体判及适用性总体判断信息表
风险分级 | 标准 |
偏倚风险总体判断 | |
低 | 如果所有领域均被判定为低偏倚风险;对于模型开发研究,即便4个领域都评为低风险,若没有外部验证仍为高风险;对于模型验证研究,只要被验证模型的构建是基于庞大数据集且构建时进行了内部验证,仍可认为整体属于低风险 |
高 | 如果≥1个领域被判定为高偏倚风险 |
不清楚 | 如果≥1个领域被判定为偏倚风险不清楚,并且所有其他领域的风险均为低风险 |
适用性总体判断 | |
低 | 如果所有领域均被判定为低适用性 |
高 | 如果≥1个领域被判定为高适用性 |
不清楚 | 如果≥1个领域被判定为适用性未知,并且所有其他领域的适用性均为低 |
对于评估结果的展现方式,建议以表、图和文字3种形式呈现,以利于读者快速了解研究的整体质量。表格可以列出每个研究的每个领域及总体风险水平(见表6);图可以展示每个领域上各等级的研究所占比例(见图1);文字讨论可以补充各种偏倚风险构成模式对研究问题的证据支持力度。
表6 PROBAST评价结果表
研究 | 偏倚风险 | 适用性 | 总体 | ||||||||
研究对象 | 预测因素 | 结局 | 分析 | 研究对象 | 预测因素 | 结局 | 偏倚风险 | 适用性 | |||
1 | + | - | ? | + | + | + | + | - | + | ||
2 | + | + | + | + | + | + | + | + | + | ||
3 | + | + | + | ? | - | + | + | ? | - | ||
4 | - | ? | ? | - | + | + | - | - | - | ||
5 | + | + | + | + | + | ? | + | + | ? | ||
6 | + | + | + | + | ? | + | ? | + | ? | ||
7 | ? | ? | + | ? | + | + | + | ? | + | ||
8 | + | + | + | + | + | + | + | + | + |
图1 表6 PROBAST评价结果图
注:本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration。