关键词:诊断预测模型质量评价; 预后预测模型质量评价; 临床预测模型质量评价; 预测模型偏倚风险评估; PROBAST
预测因素领域涵盖了预测因子的定义和测量相关的潜在偏倚和适用性问题。 设有3个信号问题,主要用来判断所有研究对象是否运用了相似的、真实可靠的方法来进行定义和测量预测因素。3个问题分别对应预测因素的定义及测量方法、测量过程、测量时点。推荐所有研究对象都采用同一定义、同一测量方法,测量时采用盲法,所有预测因素的信息在模型应用的时点都可获得。预测因素的范畴很广,包括人口学特征、医疗史、体格检查、影像指标、生化指标、组织标本、疾病分期或特征、组学信息等。评价者应列出并描述预测因子的定义、测量方法以及在模型使用的时间点,是否能够得到所有预测因子的信息。
一、预测因素领域偏倚风险等级评估
信号问题2.1
信号问题:所有研究对象的预测因子定义及测量是否一致或相似?
解读:对所有研究对象,均应使用相同的方式定义和测量预测因素,以降低风险偏倚。如果对同一预测因素使用了不同的定义和测量方法,则可能会影响因素与结局之间的关联。如,下消化道的活动性出血(“便血”)可作为预测结直肠癌诊断模型的预测因子。预测因子“便血”若定义为粪便中可见的血液或其他粪便潜血试验,而这些方法可能具有不同的判断原理、标准或检测阈值,则该预测因素可能就会引入偏倚,特别是“便血”的判断是基于前期检测结果或在有症状人群中开展的。
对于涉及主观判断的预测因素(如影像学判读结果)来说,这种偏倚的风险更高,因为研究者的专业技能和经验往往会影响测量的结果。对于此类需要特殊技能或培训才能对预测因素进行测量的情况,如何选择可靠的研究者(如,有相关从业经验或资质的人员)是非常重要的。
需要注意的是,预测因素一般指研究中纳入探讨范围的所有潜在预测因素,并不考虑是否能纳入最终模型,但如果仅针对某预测模型的系统综述时,可只关注最终纳入模型的预测因素。
信号问题2.2
信号问题:预测因子的测量是否与结局无关?
解读:对于涉及主观解释或判断的预测因素(例如基于影像学、组织学、病史或体格检查的预测因子)一般需要使用盲法。未设盲可能会将结局信息引入预测因子评估,会增加因素与结局之间的关联性,导致模型性能高估。
在使用前瞻性队列设计的预后研究中,当在结局发生前评估预后预测因子时,相当于已经对预测因子评估者的结局信息设置了盲法。而若预测因素在结局发生之后才测量或采用回顾性队列研究时,则偏倚风险较大,如对既往影像资料重新读片或回顾性检测冷藏标本时,测量过程就容易受到已发生结局的干扰。此外,如果是诊断模型采用的横断面研究,在未设盲的情况下,同时测量结局和预测因素,预测因素的测量也容易受到结局的干扰。
信号问题2.3
信号问题:在模型使用的时间点,是否能够得到所有预测因子的信息?
解读:为了使预测模型在真实场景下具有可操作性,在模型使用的时间点,应该能够得到所有预测因子的信息。从理论上讲这似乎很简单,但实际上部分模型在使用时无法知道全部预测因子的信息。如,基于术前指标预测术后24小时内恶心和呕吐风险的预后模型不应包括术中药物使用情况等预测因素(除非该药物在手术前是早就定好的方案且不会发生变化)。如果在应用模型时包含了一些并不能获得的预测因素,将会影响模型的实用性。此外,这这些预测因素还会夸大模型的预测性能,因为这些预测因子的测量时间更接近结局测量时间,并且可能与结局的关联性更高。但对于不会随时间推移而变化的预测因素(如性别和遗传因素),一般不会有这个问题。
当预测因素数据在模型验证环节缺失时,其外部验证结果会处于高风险偏倚。研究人员忽略这些有数据缺失的预测因子来验证模型,是验证研究中的一个常见缺陷,因为这种做法验证的其实不是最初开发的模型,而是验证的一个新的模型。
预测因素领域偏倚风险等级评估指导说明详见表1。
表1 预测因素领域偏倚风险等级评估指导说明
背景: 预测因素是评估与感兴趣的结局之间具有关联的变量。当预测因素的定义和测量存在缺陷时,模型性能可能会出现偏倚风险。当所有研究对象没有运用相似的、真实可靠的方法来进行定义和测量预测因素时,也可能会发生偏倚。 |
2.1所有研究对象的预测因子定义及测量是否一致或相似? 是/可能是:所有研究对象的预测因子定义及测量均一致。 否/可能不是:同一预测因子使用不同的定义和测量,或主观解释的预测因子由经验不同的评估者评估。 不清楚:没有预测因子定义及测量方法的相关信息。 |
2.2预测因子的测量是否与结局无关? 是/可能是:预测因子测量时不知道结局,或预测因子测量时不可能知道结局。 否/可能不是:预测因子测量时明确知道结局。 不清楚:没有预测因子测量时是否知道结局的相关信息。 |
2.3在模型使用的时间点,是否能够得到所有预测因子的信息? 是/可能是:在模型使用的时间点,能够得到所有预测因子的信息。 否/可能不是:在模型使用的时间点,不能够得到所有预测因子的信息。 不清楚:并未说明在模型使用的时间点,是否能够得到所有预测因子的信息。 |
预测因素引入的偏倚风险。 低:如果所有信号问题都判定为“是”或“可能是”,则偏倚风险为低。如果≥1个信号问题为“否”或“可能否”,且能提供偏倚风险可被推理为低的具体原因,仍可判定为低风险。如,使用的是客观的预测因素。 高:如果≥1个信号问题的答案为“否”或“可能否”,且未能提供偏倚风险可被推理为低的具体原因,则判为高风险。 不清楚:如果一些信号问题缺少相关信息,并且没有任何信号问题被判断为高风险(即其他信号问题都为“低风险”)时。 |
二、预测因素领域适用性风险等级评估
预测因素领域的适用性主要考虑预测因素的定义及测量方法、测量过程、测量时点与系统综述问题中指定的使用环境的匹配程度。预测因子使用了专门的测量技术可能会使适用性风险增加。如,使用了非常先进的影像成像技术开发模型,但是实际场景中这种技术却并不常用。
与研究对象领域一样,在预测因素领域中,偏倚风险和适用性评估之间也存在细微的区别。例如,在信号问题2.1中使用下消化道活动性出血作为诊断结直肠癌的预测因素。这种出血可以根据粪便中可见的血液或粪便潜血试验进行评估,评价者可能会将他们的评估焦点集中在仅使用视觉评估作为结直肠癌预测因子的诊断模型上,这意味着使用粪便潜血试验的模型研究将引起适用性问题。
对于旨在估计特定模型的平均预测性能的系统综述中,由于预测因素的定义和测量差异,开发的模型和验证的模型性能之间将存在差异。如验证他人已经完成开发的模型,但是对预测因素使用了不同的定义或测量方法,可能会发现验证模型的性能与原始模型不同,此时应将其视为适用性问题。
预测因素领域适用性风险等级评估指导说明详见表2。
表2 预测因素领域适用性风险等级评估指导说明
背景: 预测因素的定义、测量方法和测量时间应与所关注的综述问题相关。适用性风险等级评估主要围绕着预测因素的定义、测量方法和测量时间是否是与所要应用的场景相匹配,如使用的是通用的定义、测量方法和测量时间。 |
低:预测因素的定义、测量方法和测量时间与关注问题匹配。 高:预测因素的定义、测量方法和测量时间与关注问题不匹配。 不清楚:未报告预测因素的定义、测量方法和测量时间是否与所关注问题相匹配的信息。 |
本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies ,或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration 。