预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)(一)

发布于 2024年8月27日 星期二 23:24:23 浏览:677
原创不易,转载请注明来源,感谢!

预测模型研究的偏倚风险评估工具(Prediction model Risk Of Bias ASsessment Tool, PROBAST)适用于临床预测模型开发、验证或更新研究的质量评估。本文主要介绍临床预测模型的概念、PROBAST概述及使用方法。
PROBAST偏倚风险和适用性评价条目清单研究对象领域评价条目清单解读预测因素领域评价条目清单解读结局领域评价条目清单解读分析领域信号问题4.1-4.5评价条目清单解读分析领域信号问题4.6-4.9评价条目清单解读重要知识点详见其他推文。

关键词:诊断预测模型质量评价; 预后预测模型质量评价;临床预测模型质量评价;预测模型偏倚风险评估;PROBAST

一、临床预测模型介绍

预测是指估计当前未知事物的发生概率,在医学研究中,预测通常涉及诊断预测(预测个体目前是否处于某种状态的概率)或预后预测(预测个体将来是否发生某种结局的概率)。临床预测研究包括预测因子研究、预测模型研究(模型开发、验证和扩展或更新)以及预测模型影响研究。预测因子研究也称为风险因子或预后因子研究,旨在确定哪些预测因素(如年龄、疾病分期或生物标志物)能独立诊断或预后结局。预测模型研究是指综合利用多个预测因素估计个体存在某种特定状态(诊断模型)或未来发生某种结局(预后模型)的概率;预测模型也叫风险预测模型、预测指数或风险评分,一般分为诊断模型和预后模型。预测模型影响研究是指评估使用模型指导临床诊疗或护理康复的效果,多使用对比设计,如使用随机试验研究模型对临床决策、患者结局或医护成本的影响。

系统评价对循证医学和临床指南的制定具有重要作用,是干预研究和诊断试验最可靠的证据形式。预测模型的系统评价是一个较新且不断发展的领域,越来越多的研究开始系统地评估和总结反应预测模型性能的证据。目前已有的与预后研究质量评价有关的工具包括针对预后研究(预测因子)的质量评价工具QUIPS (quality in prognosis studies)、针对诊断试验准确性研究的质量评价工具QUADAS-2 (quality assessment of diagnostic accuracy studies)、针对随机对照研究的质量评价工具RoB 2.0 (Risk of Bias 2.0)、针对非随机对照研究质量评价的工具ROBINS-Ⅰ(Risk Of Bias In Nonrandomized Studies of Interventions)。但这些工具均是针对特定的研究设计研发的偏倚风险评估工具,如QUIPS针对的是旨在发现独立危险因素的预后研究,QUADAS-2针对的是利用单一诊断方法的诊断实验,RoB 2.0和ROBINS-Ⅰ针对的是旨在评价有效性或安全性的随机或非随机对照研究。上述研究的目的都不是为了构建多因素预测模型,因此并不能针对临床预测模型研究的质量进行评价。在预测模型开发和验证中,研究设计、实施和分析中的局限性都可能影响模型预测能力并导致偏倚的产生,因此需要开发针对临床预测模型质量评价的工具。

二、PROBAST工具概述

荷兰乌得勒支大学Moons教授牵头的38位学者,在借鉴随机对照研究、诊断试验和系统综述偏倚风险评估工具的基础上,经过范围定义、证据评估、德尔菲法和多次预研究,提出了预测模型研究的偏倚风险评估工具(Prediction model Risk Of Bias ASsessment Tool, PROBAST)。PROBAST包括研究对象、预测因素、结局和分析4个领域共20个信号问题,对预测模型设计、实施和分析过程中可能产生的偏倚风险和适用性进行评价。通过综合分析,对原始研究每个领域和整体的偏倚风险和适用性做出判断,分为高、低或未知三类。PROBAST为个体预测模型开发、验证和更新提供了可靠的新评价工具,不仅可以用于预测模型的系统综述,也可作为预测模型研究通用的方法学评价工具。

PROBAST的潜在使用者包括卫生政策决策者、系统评价人员、对循证医学感兴趣或参与指南制定的研究人员、临床医生,以及需要批判性地评价预测模型研究的期刊编辑、审稿人和读者。

三、PROBAST工具的使用

利用PROBAST工具开展预测模型的系统评价时,偏倚风险的评估一般包括以下4步:

  • 明确系统评价的问题;
  • 区分预测模型研究的类型;
  • 评估各领域偏倚风险和适用性;
  • 对偏倚风险和适用性进行总体判断。

其中,步骤1对每个研究进行一次评价,步骤2需要对研究中每个相关结局的模型完成一次评价,而步骤3和4需要对研究中每个不同预测模型的开发和验证单独进行一次评价,见表1。

表1 使用PROBAST评价临床预测模型研究质量的四个步骤

步骤任务完成时间截点
1明确系统评价的问题对每个研究进行一次评价
2区分预测模型研究的类型对研究中每个相关结局的模型完成一次评价
3评估各领域偏倚风险和适用性对每个不同预测模型的开发和验证单独进行一次评价
4对偏倚风险和适用性进行总体判断对每个不同预测模型的开发和验证单独进行一次评价

(一) 步骤1:明确系统评价的问题

首先,评价人员需要根据预测模型的使用目的、研究对象、预测因素和预测结局来确定系统评价的具体问题。建议使用结构化的报告方式(见表2)以便后期开展适用性评估,具体可参考预测模型研究系统评价的关键评价和数据提取表(CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling Studies, CHARMS)。每次系统评价均需要明确系统评价的问题,并按表3示例,完成每个研究的信息记录。

表2 确定临床预测模型系统评价问题的原则(PICOTS原则)

条目内容
P (Population, 研究对象)定义为:预测模型中的目标人群
I (Index, 待评价模型)定义为:待评价的预测模型
C (Comparator, 对比模型)如果涉及的话,定义为:与待评价模型对比的其他预测模型
O (Outcome[s], 预测结局)定义为:待评价的预测结局
T (Timing, 时间)定义为:在什么时候(如,在患者检查过程中)使用预测模型,或在什么时间段内预测结局(适用于预后模型)
S (Setting, 环境)定义为:预测模型的预期临床使用环境和预期用途

表3 使用PROBAST开展预测模型质量评价步骤一中问题确定信息表示例

要素具体问题
模型的使用目的用于临床预后预测,如在急症室就诊时预测患者预后
研究对象,包括纳排标准和环境如,在医院急症室就诊的有严重出血风险或在8小时内有严重出血风险的创伤患者
用于构建预测模型的预测因素,包括预测因素的类型(如,病史、临床检查、生化标记物、影像学检查),检测时间,具体的检测过程(如,设备、试剂、检测方法)如,患者的人口统计学信息、体格检查变量、损伤特征、受伤至检查的时间间隔等均在医院急症室就诊时测量
预测结局受伤后28天内死亡

(二) 步骤2:区分预测模型研究的类型

不同的信号问题适用于不同类型预测模型的评估,每个模型按其研究内容可以分为“仅开发”“开发加验证”和“仅验证”3类,或者更细分为以下6种:

  • 开发新的预测模型,属于“仅开发”类型;
  • 开发和验证相同的预测模型,属于“开发加验证”类型;
  • 验证现有的预测模型,属于“仅验证”类型;
  • 开发新的预测模型与验证现有的模型,属于“开发加验证”类型;在外部数据中验证现有模型,然后更新(调整或扩展)模型,以产生一个新模型,也属于此类;
  • 更新(如,调整模型系数)或扩展(如,向现有预测模型添加新的预测因子),属于“仅开发”类型;
  • 以上研究的组合。

如果预测模型不符合这些分类之一,则不应使用PROBAST评价其质量。需要注意几下几点:

  • 此处模型验证特指外部验证,即采用独立于模型开发时所用数据的新数据集;
  • 模型更新或参数调整视为构建新模型;
  • 每个预测模型都要单独评价1次,如同时报告模型开发及验证或模型验证及更新时,需要进行拆分分别评价。

需要对每个研究中按照每个结局的模型区分研究的类型,并按表4示例,完成表格信息记录。

表4 使用PROBAST开展预测模型质量评价步骤二中区分研究类型信息表

预测模型研究类型定义
仅开发无需外部验证的预测模型开发,但可能包括内部验证方法,如bootstrap
法和交叉验证;模型更新或扩展。
开发加验证开发和验证相同的预测模型;预测模型的开发过程中,对其他文章构建的模型进行了外部验证。
仅验证仅外部验证现有(先前开发的)模型。

临床预测模型研究类型详见预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)(八)

(三) 步骤3:偏倚风险和适用性评价

PROBAST将预测模型研究中所涉及的潜在偏倚分为研究对象、预测因素、结局和分析4个领域(domain),每个领域包含用来支持判断的信息、信号问题、偏倚风险的判断和判断的推理过程4个方面。

首先对每个信号问题进行判断,结果分为“是(Yes, Y)”“可能是(probably yes, PY)”“可能不是(probably no, PN)”“否(no, N)”或“未提供信息(no information, NI)”。“是”代表低偏倚风险,“否”代表高偏倚风险。若原始研究中确实未介绍相关信号问题的内容,判断为“未提供信息”。若原始研究中提供的信息不足以得出确定的判断,可归为“可能是”或“可能不是”。信号问题的回答有助于评估者对每个领域的风险偏倚做出判断。

每个领域的偏倚风险评估借鉴了“短板理论”,只有所有信号问题均回答为“是”或“可能是”,该领域才能被判定为低风险。只要有一个或多个信号问题回答为“否”或“可能不是”,该领域就应被判定为高风险。“未提供信息”表示信息不足,如果其他信号问题均被判定为低风险时,该领域则一般判定为“不清楚”;但并不意味着肯定存在高风险偏倚,需要根据具体情况进行综合判断。如,在一项预后研究中,在结局事件发生和测量前明确了预测因子,但报告未说明预测因子测量是否对结局设盲,该问题(见信号问题2.3)实际上应被评定为“未提供信息”。然而,评估者仍可能判断该领域为低风险,因为可以推断预测因子在结局发生前很长时间内就已测量。因此,在判断特定领域的偏倚风险时,评估者需要基于自己的经验来确定信号问题是否可能在模型开发或验证中引入偏倚。

预测模型的适用性评价包含前3个领域,判断过程与偏倚风险相似,但没有信号问题。需要对研究中每个不同预测模型的开发和验证单独评价步骤3。

(四) 步骤4:总体判断

在步骤3各个领域偏倚风险评价的基础上,可以对预测模型整体偏倚风险进行评估,评估结果也分为低、高或不清楚。与各个领域评估一样,对于整体偏倚风险,只有每个领域都评为“低风险”才将整体视为“低风险”,只要1个领域被评为“高风险”就视为高风险,若某个领域被评为“不清楚”而同时其他领域都为“低风险”时,则整体归为“不清楚”。此外,对于模型开发研究,即便4个领域都评为低风险,若没有外部验证仍为高风险;但模型验证研究,只要被验证模型的构建是基于庞大数据集且构建时进行了内部验证,仍可认为整体属于低风险(见表5)。

同样,基于步骤3各个领域适用性评价的基础上,可以对预测模型整体的适用性风险进行评价,评估结果也分为低、高或不清楚。对于研究对象、预测因素和结局3个领域,只有当所有领域都为低风险时,整体才判断为“低风险”,如果有1个或多个领域判断为高风险,则整体归为“高风险”。若某个领域判断为“不清楚”且所有其他领域都为低风险时,则整体归为“不清楚”(见表5)。

表5 使用PROBAST开展预测模型质量评价步骤五中偏倚风险总体判及适用性总体判断信息表

风险分级标准
偏倚风险总体判断
所有领域均被判定为低偏倚风险;
对于模型开发研究,即便4个领域都评为低风险,若没有外部验证仍为高风险;
对于模型验证研究,只要被验证模型的构建是基于庞大数据集且构建时进行了内部验证,仍可认为整体属于低风险
≥1个领域被判定为高偏倚风险
不清楚≥1个领域被判定为偏倚风险不清楚,并且所有其他领域的风险均为低风险
适用性风险总体判断
所有领域均被判定为低风险
≥1个领域被判定为高风险
不清楚≥1个领域被判定为风险不清楚,并且所有其他领域的适用性风险均为低

对于评估结果的展现方式,建议以表、图和文字3种形式呈现,以利于读者快速了解研究的整体质量。表格可以列出每个研究的每个领域及总体风险水平(见表6);图可以展示每个领域上各等级的研究所占比例(见图1);文字讨论可以补充各种偏倚风险构成模式对研究问题的证据支持力度。

表6 PROBAST评价结果表

研究偏倚风险 适用性 总体
研究对象预测因素结局分析 研究对象预测因素结局 偏倚风险适用性
1++ +++ +
2++++ +++ ++
3+++ ++ 
4 ++ 
5++++ ++ +
6++++ + +
7+ +++ +
8++++ +++ ++
注:+表示低偏倚风险/低适用性;-表示高偏倚风险/高适用性;?表示未知偏倚风险/未知适用性。

图1 表6 PROBAST评价结果图

注:本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration

End
文章目录 沉浸式阅读