关键词:诊断预测模型质量评价; 预后预测模型质量评价; 临床预测模型质量评价; 预测模型偏倚风险评估; PROBAST
分析领域设有9个信号问题,主要用来说明统计方法的选择和使用是否恰当,以便评价者判断由于统计分析和报告问题而产生的虚假结果和偏倚。采用不恰当的统计方法或者忽视重要的统计原则都会增加偏倚风险。该部分评价需要较多的专业知识,因此建议至少要有1位预测模型研究领域的统计学专家参与。
信号问题4.1
信号问题:发生结局的研究对象数量是否合理?
解读:医学研究中,样本量越大结果越精确,即标准误越小、置信区间(Confidence interval,CI)越窄。在预测模型研究中,尽管总体样本量很重要,但结局事件的数量更为重要。对于二分类结局,有效样本量是“发生”和“未发生”两种结局频率中较小的一种。对于含时间信息的结局(如生存数据),主要考虑是在预测的主要关注时间点发生结局事件的例数。在预测模型研究中,样本量是潜在偏倚来源,不仅影响精度,而且影响预测性能。需要注意的是,模型开发和验证阶段,对样本量的考虑是不一样的。
对模型开发研究,如果模型开发与性能评估使用的是同一套数据集,则预测模型的性能会被高估,这种高估在样本量不足或较小的情况下尤为突出。如果最终模型包含的预测因子是基于诸多候选因子所选出,且结局发生例数较少时,或最终预测因子是通过单因素分析结果选出时,模型的表现性能也会被高估(见信号问题4.5)。模型开发研究的样本量需要考虑每个变量的事件数(Events Per Variable,EPV),准确地说是需要考虑回归系数的数量。如,具有6个水平的多分类变量会有5个回归系数,此时应该考虑为5个候选预测因子数,而不是一个。 此外,单词candidate(候选)也提示考虑的不是最终模型中包含的预测变量的数量,而是在预测模型过程的任何阶段需要考虑的预测变量的总数。
虽然10倍EPV原则在实际研究过程中被广泛运用,但最近研究(https://pubmed.ncbi.nlm.nih.gov/27881078/)表明,这个标准并无科学依据,许多学者建议应采用更高(至少为20倍EPV)标准。一般而言,EPV低于10的研究可能存在过拟合,而EPV高于20时过拟合的几率大为降低。然而,过度拟合最小化所需的样本量是基于特定研究环境综合决定的,如结局事件的分布几率(患病率),整体模型性能(R2)和预测因子分布。因此,要精确决定样本量是否合适一般而言比较困难,特别是当EPV在10-20之间时。如果使用机器学习方法开发预测模型通常需要更高的EPV(通常>200),以最大限度地减少过拟合。
因此,有效样本量越小、EPV标准设置越低,最终预测模型包含虚假预测因子(“过度拟合”)或未能包含重要预测因子(“拟合不足”)的风险越高。过拟合和欠拟合可能会使模型表现出来的预测性能发生偏倚。对于较小的EPV,作者需要使用内部验证法量化评估所开发的模型的错误拟合程度(通过优化调整模型性能),并后续调整模型参数(即收缩回归系数)来减少这种偏倚(见信号问题4.8)。
对模型验证研究,其目的是使用与模型开发中不同的数据集来量化现有模型的预测性能。验证研究的重点是准确和精确地估计模型性能,以便得出有意义的结论。建议验证研究至少应包括100名发生结局事件的研究对象,以降低偏倚风险。
信号问题4.2
信号问题:连续性变量和分类变量的处理是否合适?
解读:尽量不要将连续性变量(如年龄、血压)转换为分类变量。如,选择一个分界点,高于该分界点的值被归类为高(或异常),低于该分界点的值被归类为低(或正常)。通常认为,这种做法更容易被临床解释,并保持变量的简单性,然而这其实是一个误解。因为,这种做法会导致连续性变量信息损失严重,并且包括二分类变量的预测模型可能会显著降低模型的预测能力。
如,根据中位数或者均值将连续性变量转换为二分类变量已被证明会降低功效,大约会损失三分之一的数据信息。此外,这种做法会使模型的预测能力趋势在预测值范围内不再存在。即使预测因子数值几乎没有差异(如血清胆红素水平10 μmol/L和10.1 μmol/L分别被归类为正常和偏高),但低于临界值的个体会被认为与高于临界值的个体风险不同;反之,假设两个人的数值相差很大,但都高于或都低于临界值(如血清胆红素水平10.1 μmol/L和50 μmol/L均被归类为偏高),则会认为他们的风险相同。因此,预测因子和结局风险之间的线性或非线性关系不再存在。需要注意的是,如果使用了被专业上广泛接受的分界标准(即并不是基于数据驱动的)对连续性变量进行分类时,尽管这些信息会丢失,但偏倚风险比较低,因为分界标准是事先确定好的。尽量不要到分析阶段再将连续性变量根据手头数据特征转为二分类变量,必须如此操作时,要进行内部验证和调整收缩回归系数,如信号问题4.1所讨论的一样,内部验证之后对模型性能和收缩回归系数进行调整会降低偏倚风险(见信号问题4.8);否则只要有1个连续性变量在分析阶段被临时转为二分类变量进行预测,即视为高风险。
对于模型开发研究,当包含的预测因子是连续性变量形式时,模型偏倚风险较低。但,连续性变量和结局之间的关联仍然需要通过使用限制性立方样条或分段多项式等方法来检验其线性或非线性关系。当连续性变量是通过以下方法被转换为二分类变量进入模型时,所开发的模型处于高偏倚风险:通过最大化预测因子的效应确定阈值(如使用ROC曲线确定约登指数最大时的阈值),或最小化相关P值的“最佳”切割点确定阈值,或通过一定的选择规则确定了“显著阈值”。
当将连续性变量转换为4个水平及以上的分类变量,而不是二分类变量时,偏倚风险会降低,特别是转换的标准是行业内广泛使用的。但需要清楚的是,转换的标准(临界点数量和位置)是在数据分析之前就确定好的,并不是到分析阶段再将连续变量根据手头数据特征进行转换。如果不是事先确定的转换标准则需要进行内部验证和调整收缩回归系数。分析过程中,对某些人数较少的亚组进行合并后该变量若仍未被纳入最终模型,可认为偏倚风险较小;反之,偏倚风险较大。
对于模型验证研究,是根据验证数据集的预测准确性评价开发模型的性能。 此时,验证研究中应使用和开发模型中一样的变量形式、截距或基线风险和回归系数。如,体重指数(BMI)在模型开发中作为二分类变量纳入模型,则验证研究中应使用在模型开发时相同的分界点转换BMI值,而不是使用不同分界点。如果连续性变量预测因子在模型验证和开发过程中具有不同的格式或者分界点,则验证模型可能处于高偏倚风险。
信号问题4.3
信号问题:分析中是否纳入了所有的研究对象?
解读:所有入组的研究对象都应纳入数据分析,否则可能出现偏倚风险。该信号问题是指从原始研究样本中排除符合入选标准的研究对象,这不同于信号问题1.1中所指的不合适的入选或排除标准,也不同于信号问题4.4中所指的预测因子或结局中缺失数据的处理。分析时如果因某些预测因素难判断、存在异常值或缺失而将符合入选标准的研究对象剔除一部分,如剔除预测因素模糊不清(如影像学检查或实验室检查)的个体,则可能导致纳入分析的都是极端取值个体,会高估模型区分度。但并非只要有研究对象因为上述原因剔除就一定判断为“高风险”,当只有一小部分研究对象不纳入分析且纳入部分仍具有代表性时,偏倚风险可能评价为“低风险”,但到底多小比例才认定为“可以接受的一小部分”尚无明确标准,总体来说是偏倚风险会随着被排除的研究对象百分比增加而上升。
基于常规诊疗护理数据库或登记数据进行模型开发或验证研究,其研究对象往往没有以模型构建为目的进行科学定义,甚至是出于其他原因而收集的数据,更容易受到这种形式的偏倚影响。当使用这些数据源进行模型开发或验证时,应制定明确的标准选择研究对象。但基于此类数据源进行模型开发或验证时,关于研究对象的合格性标准和排除标准信息往往报告不充分,其潜在偏倚的程度可能并不清楚。
信号问题4.4
信号问题:对缺失数据的处理是否合适?
解读:如前所述,当被分析的研究对象是被选择过的而不是原始人群的完全随机代表样本时,简单地从分析中排除具有缺失数据的合格研究对象会导致预测因子与结局关联的偏倚,使模型性能产生偏差。当研究报告未提及缺失数据时,具有缺失数据的研究对象可能从分析中被自动忽略(涉及“可用病例”或“完整病例”分析),因为统计软件一般会自动排除缺失值个案,除非报告中说明了以其他方式来处理缺失数据。“可用病例”或“完整病例”分析是处理预测模型研究中缺失数据问题最常见的方法。
处理缺失数据最合适的方法是多重填补,因为它会导致偏差最小的结果,并计算正确的标准误和P值。在预测模型开发和验证研究中,就偏倚和精度方面,多重填补优于其他方法。对于不可解释或离群数据,将其单独分为一类并不是一种适当的处理方法,会导致预测模型性能的偏倚,因此信号问题应回答为高风险。缺失数据导致的风险偏倚会随着缺失数据百分比的增加而上升,但是很难定义可用作低风险偏倚的最小可接受百分比。当作者报告并比较了“可用病例”和“完整病例”的分析结果差异,有助于判断可能的风险偏倚。如果两个结果较为相似,则偏倚风险较低。如果没有提供此类比较数,并且研究者未使用多重填补方法,建议将此信号问题回答为高风险或可能高风险;特别是如果较高比例的研究对象因缺失数据而被排除,应判定为高风险。有时,使用其他数据验证预测模型时,直接去掉原始模型中的某个预测因子(如,验证数据集中未检测该预测因子),这种做法偏倚风险很高。
信号问题4.5
信号问题:是否避免了基于单因素分析选择预测因子?
解读:一个数据集中通常会有许多变量可以作为候选预测因子,研究人员通常希望在模型开发过程中减少预测因子数量,以构建更为精简的模型。最常见的做法是基于单因素分析结果选择进入模型的变量,多取单因素分析P < 0.05有统计学意义。但这种做法可能并不能全面准确地选择预测因子,因为在该过程中预测因子的选择是基于单个变量与结局之间的统计学关联而不是综合考虑其他变量一起情况下作出的判断。一方面,这种做法会造成一些预测因子的遗漏,因为某些预测因子仅在对其他预测因子进行调整后才会变得有统计学意义,这些预测因子在其他研究中被认为与结局具有关联,但在此次研究中可能因为某些原因没有达到统计学显著性(例如,由于样本量小所致)。另一方面,这种做法可能会将一些本身没有真正预测价值的变量纳入最终模型作为预测因子。
变量筛选切忌单纯依赖单因素分析,比较好的做法是根据已有临床知识、预测因素测量的可靠性、一致性、适用性、可及性和测量成本综合考虑,无论有无统计学意义,预测模型中都应包括并保留以前研究中已确定的预测因子和具有临床可信度的预测因子。也可以使用一些不基于预测因子和结局之间的统计学关联的方法来减少建模预测因子的数量(如,主成分分析)。
模型构建过程使用变量筛选法可精简变量数量(如,向后逐步回归)并拟合更为精炼的模型。如果使用了这些变量筛选策略,应使用内部验证和收缩系数调整评估其对模型构建过拟合的影响,详见信号问题4.8。
当模型开发不是基于单因素分析结果选择预测因子,或者在多因素建模之前没有证据表明预测因子的选择是基于单因素分析结果时,应评定为低风险或可能低风险。如果是基于单因素分析结果选择预测因子构建模型,应评定为高风险。
分析领域偏倚风险等级评估指导说明详见表1。
表1 分析领域偏倚风险等级评估指导说明(信号问题4.1-4.5)
背景: 统计分析是预测模型开发和验证的关键部分。使用不恰当的统计分析方法会增加模型性能评价结果的偏倚。模型开发研究包括许多步骤,建议评价人员在评估分析领域时寻求统计学专家的意见。 |
4.1发生结局的研究对象数量是否合理? 是/可能是(低风险):对于模型开发研究,结局事件发生数是候选预测参数数量的20倍及以上(EPV≥20);对于模型验证研究,结局事件发生数≥100。 否/可能不是(高风险):对于模型开发研究,结局事件发生数是候选预测参数数量的10倍以下(EPV<10);对于模型验证研究,结局事件发生数<100。 不清楚(风险不清楚):对于模型开发研究,没有关于候选预测参数数量或结局事件发生数的信息,因此无法计算EPV;对于模型验证研究,没有关于结局事件发生数的信息。 |
4.2连续性变量和分类变量的处理是否合适? 是/可能是(低风险):对于模型开发研究,连续性变量在纳入模型时未被转换为二分类或多分类变量;或者使用了如限制性立方样条或分段多项式等方法来检验其线性或非线性关系;或者使用了预先指定的方法将连续性变量转换为分类变量。对于模型验证研究,使用了与模型开发研究相同的定义和变量形式,或使用了相同的方法(如临界值)将连续性变量转换为分类变量。 否/可能不是(高风险):对于模型开发研究,连续性变量在纳入模型时被转换为二分类或多分类变量,且不是使用预先指定的方法(如数据驱动法)。对于模型验证研究,使用了与模型开发研究不同的定义和变量形式,或使用了不同的方法(如临界值)将连续性变量转换为分类变量。 不清楚(风险不清楚):对于模型开发研究,没有关于连续性变量在纳入模型时如何被转换为二分类或多分类变量的信息;也没有连续性变量是否经过线性或非线性检验的信息。对于模型验证研究,没有与模型开发研究中连续性变量定义、形式、转换方法是否相同的信息。 |
4.3分析中是否纳入了所有的研究对象? 是/可能是(低风险):所有入组的研究对象都被纳入了数据分析,或只有极少数被排除。 否/可能不是(高风险):一些或一个亚组的研究对象被不适当地排除分析(如结果不明者、数据缺失者、异常值、随访不完整者)。 不清楚(风险不清楚):没有关于是否所有入组的研究对象都被纳入分析的信息。 |
4.4对缺失数据的处理是否合适? 是/可能是(低风险):预测因子或结局变量不存在缺失值;或者明确报告了未根据缺失数据排除研究对象;或者使用了多重填补方法处理缺失值;或比较了有缺失数据和无缺失数据的结果。 否/可能不是(高风险):在分析中排除了有缺失值的研究对象;或者处理缺失数据的方法存在明显缺陷(如,删除有缺失数据的变量或使用末次观测值结转法[Last observation carried forward,LOCF]);或未明确提及处理缺失数据的方法。 不清楚(风险不清楚):没有足够的信息来判断处理缺失数据的方法是否适当。 |
4.5是否避免了基于单因素分析选择预测因子? 是/可能是(低风险):在多因素建模之前没有根据单因素分析结果选择预测因子,如根据现有知识选择预测因子强制纳入模型;或对多因素分析结果进行过拟合分析。 否/可能不是(高风险):根据单因素分析结果选择多因素建模的预测因子。 不清楚(风险不清楚):没有信息表明是否是根据单因素分析结果选择多因素建模的预测因子。 |
本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies ,或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration 。