关键词:诊断预测模型质量评价; 预后预测模型质量评价;临床预测模型质量评价;预测模型偏倚风险评估; PROBAST
分析领域设有9个信号问题,主要用来说明统计方法的选择和使用是否恰当,以便评价者判断由于统计分析和报告问题而产生的虚假结果和偏倚。采用不恰当的统计方法或者忽视重要的统计原则都会增加偏倚风险。该部分评价需要较多的专业知识,因此建议至少需要1位在预测模型研究领域的统计学专家参与。
信号问题4.6
信号问题:数据中的复杂问题(例如数据删失,竞争风险和对照组的抽样)是否被合理处理?
解读:预测模型的开发和验证必须确保所使用的统计学方法及其基本假设与采用的研究设计和结局数据类型相适应。此处,特别提醒因为数据复杂性而必须考虑的一些关键因素。如果在分析中没有正确处理这些因素,很可能导致模型出现偏倚风险。
如信号问题1.1所讨论,如果预测模型是基于病例-队列或巢式病例-对照设计,则分析方法必须考虑相对于原始队列的抽样比例,以正确估计绝对结局事件概率。例如,在基于巢式病例-对照设计的诊断预测模型开发或验证中,其对照组一般是来自于原始队列中的部分采样人群,此时需要采用逆概率加权的logistic回归分析数据,而不能采用传统logistic回归,否则将导致模型预测的偏倚风险。通过对抽样比例进行科学调整,可以降低风险偏倚的程度(见信号问题1.1)。
对于结局存在竞争风险或随访存在删失的数据,需采用整合时间-事件信息的Cox回归方法。使用logistic回归模型,会简单地排除随访不完整的研究对象,这是不合适的。Logistic回归处理删失数据会导致纳入分析的数据集中没有发生结局事件的人数比例偏低,而发生结局事件的人数比例过高,从而使预测风险产生偏差。对存在明显竞争风险的数据,模型开发需要使用竞争风险模型。如,研究某治疗措施对非小细胞肺癌的疗效,感兴趣的结局事件是非小细胞肺癌导致的死亡,若随访过程中病人因为其他原因死亡,就观察不到感兴趣的结局事件,那其他原因的死亡则被认为是非小细胞肺癌死亡的竞争风险事件。如果竞争风险没有被正确处理,发生竞争性事件的患者被删失,将会高估绝对风险预测值。
此外,对于结局可以复发的数据(如癫痫患者可多次发生),需采用多水平模型或随机效应模型。在具体研究中需要专门的统计学知识来识别和处理这些问题。此处指出的只是预测模型构建过程中的一些重要问题,并非表示其他方面不重要。对于统计学方法合适性的评估首先需要考虑一般统计学规则。
信号问题4.7
信号问题:模型性能的评估是否合适?
解读:PROBAST旨在评估多因素模型的研究,这些模型被开发或验证用于对个体进行诊断或预后预测,即个体化预测。因此,为了全面衡量模型的预测性能,评价人员必须评估模型的校准度和区分度(如c指数),以综合评价模型预测值的适用范围。如果未评估校准度和区分度,则难以知晓模型准确预测个体结局事件发生概率的能力或性能,研究处于高偏倚风险。当观察到组数较少的校准图或表时(如,由于样本量小、事件太少所致),需要结合图形正确评估此信号问题。在没有反应预测值与实际值吻合程度的校准图或表格的情况下,仅报告了校准的统计检验结果(如Hosmer-Lemeshow检验),应判定为“否”。
用于评估模型校准度和区分度的方法应与结局指标的类型相适应。适用于logistic回归开发的用于预测二分类结局事件的模型并不适合于使用Cox回归分析预测长期生存数据的模型,因为后者需要考虑删失问题。在模型开发或验证研究中,评估基于生存数据的预后模型的校准度和区分度时,若未能考虑删失问题,则意味着该信号问题为“否”或“可能不是”。
一些研究还提供了分类指标,包括灵敏度、特异度、预测值或重分类指标(如净重新分类指数),以展示明模型预测性能,可能并未提供模型校准度和c指数。在诊断模型研究中经常提供这些分类指标。分类和重分类指标的估计需要在模型预测概率范围内引入1个或多个阈值。应结合临床实际的概率阈值报告模型预测性能,而不是简单的在整个预测概率范围内描述概率阈值的使用。使用概率阈值通常会损失信息,因为模型的整个预测概率范围没有得到充分利用,并且阈值的选择可以是数据驱动的,而不是基于临床情况事先确定好的(见信号问题4.2)。使用概率阈值可能会造成估计的分类(或重分类)指标出现较大偏差,特别是阈值选择是以数据驱动(最大限度地提高预测性能)来确定的时候。如果没有预先指定阈值,使用此类概率阈值,应判定为“否”。当分类和重分类指标在没有模型校准度辅证的情况下报告时,也应判定为“否”。在对模型预测的概率进行分类之前,需要进行校准度分析,以了解预测概率是否正确。
信号问题4.8
信号问题:模型性能的过拟合、欠拟合是否被合理校正?(仅限于模型开发研究)
解读:如信号问题4.1、4.2和4.5所述,使用与模型开发时同一个数据集对模型的性能进行评估,往往会由于过度拟合而过高估计模型性能,即模型过于适应开发数据集。当结局事件过少、结局事件数/待筛选变量数比值过小(EPV过小)、连续性变量转为二分类变量,利用单因素分析或前进/后退自动法筛选变量时,过度拟合问题会更为突出,此时需要补充内部验证和收缩回归系数调整。
因此,预测模型开发研究应有合理的内部验证,如bootstrap法、交叉验证法或其他方法,内部验证对于量化评估开发模型的过度拟合及其预测性能的过高估计/乐观性(optimism)非常重要,除非样本量和EPV非常大。内部验证意味着仅使用与模型开发时同一个数据集对模型的性能进行评估。如果存在性能的过高估计,则需要调整或缩小最终模型中的预测性能参数(如c指数)和预测因子效应,这一步非常重要。但这么做的研究其实很少。当未被调整或被收缩的模型用于预测其他个体风险时,使用未收缩或未调整的回归系数将导致预测准确性发生偏倚。例如,可以从bootstrap过程中获得统一(线性)收缩因子,并应用于所有预测因子效应估计。惩罚性回归法也越来越流行,如岭回归和Lasso回归,可以将每个预测因子的影响不同程度地缩小,甚至完全排除一些预测因子。
当进行了内部验证和收缩回归系数调整时,此信号问题应回答为“是”。 对过拟合进行适当的调整可以降低由于EPV过小(信号问题4.1)、连续性变量转为二分类变量(信号问题4.2)、利用单因素分析或前进/后退自动法筛选变量(信号问题4.5)时引起的偏倚问题。对于这个信号问题,预测模型开发还应考虑采取的方法是否合适,特别是在样本较小、低EPV、连续性变量被转换为分类变量的情况下,该信号问题应回答为“否”。如一些研究可能使用不适当的方法来评估或调整乐观性。如经常可见,将数据集随机分为两组(1组用于模型开发,1组用于内部验证),已被证明这种方法用于评估模型的乐观性并不合适。此外,研究人员经常应用bootstrap和交叉验证技术来评估乐观性,但实际数据分析过程中并非全程运用了这些技术,如未能将预测因子筛选过程纳入bootstrap和交叉验证,因此可能会低估模型的性能偏倚,这种不适当的方法也会导致该信号问题回答为“否”。但需要注意的是,对于高EPV的超大型样本预测模型开发研究,其过拟合的可能性一般很低。
信号问题4.9
信号问题:最终模型中的预测因子及其权重是否与呈现出来的多因素分析结果相一致?(仅限于模型开发研究)
解读:应充分报告最终开发模型的预测因子和系数,包括截距或基线风险,以便该模型能够正确地被应用于其他目标人群。但分析显示,目前预测模型研究报告呈现的最终模型与多因素分析结果(如截距和预测因子)之间经常不匹配。 2010年对癌症预测模型的回顾性分析发现,38个最终预测模型方程中只有13个(34%)使用与最终呈现的多因素分析结果相同的预测因子和系数,8个使用了相同的预测因子但不同的系数,11个预测因子和系数均不相同,6个使用了未知的方法从多因素分析结果中推导出最终的预测模型。
当呈现的最终模型和多因素分析结果不匹配时,可能会产生偏倚。如从较大的模型中删除了统计学意义不显著预的测因子以达到最终呈现的模型,但最终模型的系数却是使用的大模型中预测因子的系数。当有预测因子从较大的模型中被删除时,应重新估算较小模型的所有预测因子的系数,这非常重要,因为后者才是最终模型。即使删除的是统计学意义不显著的预测因子,重新估算后的预测因子系数也很可能会发生改变。
如果最终模型的预测因子和回归系数均与多因素回归分析结果相一致时,该问题的答案为“是”。如果最终模型的预测因子和系数是从多因素回归分析结果中选择的,而未重新拟合较小的模型,则应回答为“否”或“可能否”。当没有给出产生预测因子和回归系数的多因因素回归分析结果信息时,应回答为“未知”。 注意,该信号问题不是关于评价筛选最终模型预测因子的方法是否正确,后者在信号问题4.5中已讨论。
分析领域偏倚风险等级评估指导说明详见表1。
表1 分析领域偏倚风险等级评估指导说明(信号问题4.6-4.9)
背景:当结局的定义和测量存在缺陷时,模型性能可能会出现偏倚。当所有研究对象没有运用相似的方法来进行定义和测量结局时,也可能会发生偏倚。 |
4.6数据中的复杂问题(例如数据删失,竞争风险和对照组的抽样)是否被合理处理?是/可能是:数据中的任何复杂性都被考虑和合适地处理;或者很明显地可以判定数据的复杂性不会对模型构建或验证产生影响。否/可能不是:忽略了可能影响模型性能的数据复杂性。不清楚:没有提供数据中是否存在复杂性,或者存在复杂是否已作适当处理的信息。 |
4.7模型性能的评估是否合适?是/可能是:模型的校准度和区分度都得到了适当的评价(包括生存数据预测模型考虑了删失问题)。否/可能不是:未对模型的校准度和区分度进行评价;或者仅使用拟合优度检验(如Hosmer-Lemeshow检验)来评价校准度;或者预测生存结局的模型未使用考虑删失的性能指标;或者分类指标(如灵敏度、特异性或预测值)的判定阈值是基于现有数据集得出(数据驱动的)。不清楚:未报告校准或区分度;或未提供是否使用了适当的评估生存结局性能指标的信息(如,参考相关文献或提及具体方法,如使用Kaplan-Meier法);或未提供分类性能指标的阈值信息。 |
4.8模型性能的过拟合、欠拟合是否被合理校正?(仅限于模型开发研究)是/可能是:使用了如bootstrap法和交叉验证法等合适的方法对模型开发全过程进行了内部验证,用于解释模型拟合中的任何乐观性,并已应用于模型性能估计的后续调整。否/可能不是:没有进行内部验证;或者内部验证是对开发模型数据集的随机分割样本开展的(如7:3组成训练集和验证集,使用验证集进行内部验证);或者bootstrap法和交叉验证法并未贯穿模型开发全过程,包括预测因子的筛选过程。不清楚:没有提供信息说明是否采用了内部验证以及内部验证的过程。 |
4.9最终模型中的预测因子及其权重是否与呈现出来的多因素分析结果相一致?(仅限于模型开发研究)是/可能是:最终模型中的预测因子和回归系数与多因素分析报告的结果一致。否/可能不是:最终模型中的预测因子和回归系数与多因素分析报告的结果不一致。不清楚:不清楚最终模型中的预测因子和回归系数是否与多因素分析报告的结果相一致。 |
分析引入的偏倚风险。低:如果所有信号问题都判定为“是”或“可能是”,则偏倚风险为低。如果≥1个信号问题为“否”或“可能否”,且能提供偏倚风险可被推理为低的具体原因,仍可判定为低风险。高:如果≥1个信号问题的答案为“否”或“可能否”,且未能提供偏倚风险可被推理为低的具体原因,则判为高风险。不清楚:如果一些信号问题缺少相关信息,并且没有任何信号问题被判断为高风险(即其他信号问题都为“低风险”)时。 |
本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies (https://pubmed.ncbi.nlm.nih.gov/30596875/),或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration (https://pubmed.ncbi.nlm.nih.gov/30596876/)。