关键词:诊断预测模型质量评价; 预后预测模型质量评价; 临床预测模型质量评价; 预测模型偏倚风险评估; PROBAST
研究对象领域涵盖了研究对象、数据来源相关的潜在偏倚和适用性问题。评价者应描述数据来源,例如队列研究、随机对照试验(randomized controlled trial, RCT)或常规诊疗护理登记数据,以及研究对象的纳排标准。该领域设有2个信号问题,主要用来说明研究对象的代表性,以便评价者判断预测模型是否正确反映了源人群中的预测因素与预测结局之间的关系。
一、研究对象领域偏倚风险等级评估
信号问题1.1
信号问题:数据来源是否合适,如队列研究,随机对照试验或巢式病例对照研究?
解读:许多数据源和研究设计都可用于预测模型研究。
对于预后模型,如果是前瞻性队列研究设计,其偏倚风险较低,因为其中的方法往往是定义好的,并在研究中对所有研究对象会使用相同的入选和排除标准、预测因素评估方法和结局测量。使用预先规定好的一致的方法可以确保收集到的研究对象数据是系统性的和有效的。当数据来自现有常规工作数据库(如现有队列研究或常规诊疗护理登记研究)时,模型开发和验证发生偏倚风险的可能性更高,因为这些数据的收集目的通常不是开发、验证或更新预测模型,而且通常没有严格的方案。在常规工作数据库中,所有研究对象使用的入选和排除标准可能会不一致,相关数据的测量方法也可能不一样。因此,研究人员在构建预测模型之前必须对数据质量进行全面地核查。
来自一个或多个RCT的数据也可用于预后模型的开发、验证或更新。 但RCT的研究对象通常有更严格的入选标准,这会导致预测因子分布更窄(更小的病例组合)。 使用具有较窄预测因子分布的数据开发或验证的模型往往比使用具有更广泛分布的预测因子的数据源开发的模型区分度更低。
在病例队列或巢式病例对照研究中,发生结局的研究对象(病例者)和未发生结局的研究对象(非病例或对照者)均从已存在且质量控制良好的队列或已知规模的常规诊疗护理登记研究数据库中选择,只要在分析中合理调整原始队列或登记研究中的结局频率,就可被视为低偏倚风险(见信号问题4.6)。 但如果没有合理调整结局频率,则病例队列和巢式病例对照研究的预测模型偏倚风险是较高的。如,在逻辑回归预测模型中,通过逆变换采样分数(来自原始队列或研究)将对照和病例样本重新加权,可以正确估计基线风险,从而可以获得正确的绝对预测概率和模型校准估计结果。但在普通的病例对照研究中,病例和对照不是从预先指定和具有明确定义的队列或登记研究中抽样的,所选病例和对照相对于源人群的定义和数量并不清楚(结局发生比例并不能代表源人群的真实情况),其基线风险或风险比的绝对预测概率不被能正确调整,因此偏倚风险较高。
诊断模型在开展待评价试验或测量预测因素的同一时间点预测是否患目标疾病。因此,诊断模型研究中偏倚风险最低的设计是横断面研究。首先根据症状或体征选择可能罹患目标疾病的高危人群,然后在研究对象中进行诊断试验或者测量预测因素,并参考金标准结果判断是否患目标疾病。但如果在开展待评价试验或测量预测因素的时间点无法通过金标准确定所有患者的疾病状态(如,一些具有潜在恶性肿瘤的患者影像学是正常的,则不能进行活检),则需要额外的随访以确定在这个时间点是否存在目标疾病,此时也可采用队列研究。
与预后模型一样,只有通过逆变换采样分数调整了病例和对照样本(见信号问题4.6)以获得原始队列中结局发生率的正确估计值时,使用巢式病例对照设计的诊断模型才能判定为低偏倚风险。如果是普通病例对照设计,其中晚期病例患者或健康对照受试者的代表性过高,将导致疾病患病率的估计不正确,并高估诊断模型性能。
信号问题1.2
信号问题:纳入和排除标准是否合理?
解读:不适当地纳入或排除研究对象可能会使模型预测性能产生偏倚,因为构建模型的样本不能很好的代表目标源人群。如果研究对象包括了收集预测因素时已经知道是否患病的人则为不合适的纳入标准。如,在预测2型糖尿病是否发病的预测模型研究中,如果入选标准包括基于自我报告的无糖尿病人群,其一些参与者可能实际上已经患有2型糖尿病,其模型的预测性能可能会被高估。同样,如果开发有症状患者是否存在肺栓塞的诊断模型,排除已有其他肺部疾病的患者则是不合适的。因为,这些患者可能比那些没有其他肺部疾病史的患者更难诊断肺栓塞,如果排除了这些患者,开发的诊断模型用于疑似肺栓塞的患者诊断准确性可能会被高估。这种情况下,作者应明确声明,所开发的模型仅适用于无既往肺部疾病史的肺栓塞疑似人群。
需要注意的是,该信号问题并不是询问入组后的失访情况,即并不是关心研究期间对研究对象不合适的排除(这是在领域4中处理的问题),而关注的是在入组期间被不适当纳入或排除问题。此外,此处的偏倚指的是入选标准限制对研究人群施加的选择偏倚,而不是研究人群与目标关注人群不匹配所产生的适用性问题,要对这两者区分开来。总之,该信号问题关注的是入选或排除标准或招募策略是否能使入选的研究对象代表预期的目标人群。一些偏倚风险评估工具(如QUADAS-2)有一个信号问题,询问研究是否招募了连续或随机的样本。因为这在任何研究中都很难实现,所以并未将此问题纳入PROBAST。
研究对象领域偏倚风险等级评估指导说明详见表1。
表1 研究对象领域偏倚风险等级评估指导说明
背景: 预测模型的总目标是,能否使用预测因素计算出个体发生结局的风险预测值。偏倚风险等级评估主要围绕着数据来源、研究设计、研究对象的纳入排除标准等是否适合生成可靠的风险预测值。 |
1.1数据来源是否合适,如队列研究,随机对照试验或巢式病例对照研究? 是/可能是(低风险):使用了队列研究设计(包括RCT或合适的登记数据),或在分析中科学调整了结局频率/基线风险的巢式病例对照和病例队列设计。 否/可能不是(高风险):使用了普通的病例对照设计。 不清楚(风险不清楚):研究对象的抽样方法/研究设计不清楚。 |
1.2纳入和排除标准是否合理? 是/可能是(低风险):研究对象的纳入和排除标准合理,纳入的研究对象能较好地代表感兴趣的目标人群。 否/可能不是(高风险):纳入的研究对象已经确定具有结局事件,因此不再是疑似患者(诊断模型研究);或纳入了有发生结局风险的对象(预后模型研究);或者排除了可能改变目标人群预测性能的特定亚组(即不合理地排除了研究对象)。 不清楚(风险不清楚):没有研究对象纳入排除的相关信息。 |
研究对象或数据来源引入的偏倚风险。 低风险:如果所有信号问题都判定为“是”或“可能是”,则偏倚风险为低。如果≥1个信号问题为“否”或“可能否”,且能提供偏倚风险可被推理为低的具体原因,仍可判定为低风险。 高风险:如果≥1个信号问题的答案为“否”或“可能否”,且未能提供偏倚风险可被推理为低的具体原因,则判为高风险。 风险不清楚:如果一些信号问题缺少相关信息,并且没有任何信号问题被判断为高风险(即其他信号问题都为“低风险”)时。 |
二、研究对象领域适用性风险等级评估
研究对象领域的适用性主要考虑预测模型中纳入的研究对象与系统综述问题中指定的目标人群的匹配程度。如,系统综述旨在评价是否患细菌性结膜炎的诊断模型,如果原始研究的模型开发和验证只是基于儿童而非整个人群,则适用性风险等级评估较高,而包括成人和儿童的研究则适用性风险等级评估较低。
基于RCT的预测模型研究的普遍性和适用性往往受到限制,RCT倾向于采用严格的纳入和排除标准,并且预测因子很少,从而降低了模型的适用性。与之相比,常规诊疗护理或医疗保健登记研究的数据中研究对象的特征、预测因子和结局分布均更具有代表性,能较好地代表真实场景,因此基于此类数据源开发或验证的预测模型往往具有更高的适用性。
适用性评估和偏倚风险评估并不具有直接关系,前者完全取决于系统综述关注的目标问题。如研究者关注的是怀疑患有肺栓塞且先前没有其他肺部疾病的人群,那么预测模型研究中如果纳入了患有其他肺部疾病的患者将构成适用性问题,但不一定是风险偏倚。同样,如一项诊断模型研究年龄范围是18至90岁的患者,这并不会给研究带来任何偏倚,但如果系统综述问题集中在年轻人(18 - 30岁),则可能会限制模型的适用性。
研究对象领域适用性风险等级评估指导说明详见表2。
表2 研究对象领域适用性风险等级评估指导说明
背景: 纳入的研究对象、使用的纳排标准以及模型的使用场景应与与所关注的综述问题相关。适用性风险等级评估主要围绕着研究对象和使用场景是否与与所关注的目标人群相关。 |
低风险:纳入的研究对象和模型使用的临床环境与关注问题匹配。 高风险:纳入的研究对象和模型使用的临床环境与关注问题不匹配。 风险不清楚:未报告纳入的研究对象和模型使用的临床环境相关信息。 |
本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述,仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies ,或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration 。