预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)(五)

2024年9月6日星期五发布于 21:49:20 浏览：2410

原创不易，转载请注明来源，感谢！

在前面文章中介绍了临床预测模型的概念、PROBAST概述及使用方法、PROBAST偏倚风险和适用性评价条目清单，解读了PROBAST偏倚风险和适用性评价条目清单的研究对象领域和预测因素领域。本文主要解读结局领域。分析领域信号问题4.1-4.5评价条目清单解读、分析领域信号问题4.6-4.9评价条目清单解读和重要知识点详见其他推文。

关键词：诊断预测模型质量评价; 预后预测模型质量评价; 临床预测模型质量评价; 预测模型偏倚风险评估; PROBAST

结局领域涵盖了结局的定义和测量相关的潜在偏倚及适用性问题。设有6个信号问题，主要用来判断所有研究对象是否运用了相似的、真实可靠的方法来进行定义和测量预测结局。与预测因素相似，此处的6个问题对应了预测结局的定义及测量方法、测量过程和测量时点。在诊断模型研究中，结局为是否存在目标状态，一般使用参考标准(金标准)来确定目标状态。在预后模型研究中，预测的结局发生在未来。结局确定方法可以使用单个指标或复合指标或专家共识。推荐所有研究对象都采用同一预先设定的定义、同一测量方法，测量时采用盲法，并选取恰当的时点。评价者应列出并描述结局的定义、测量方法以及结局的判定时间。

一、结局领域偏倚风险等级评估

信号问题3.1

信号问题：结局的测量方法是否合适？

解读：该信号问题旨在评估由于使用了非最佳方法确定结局而导致结局错误分类所致偏倚的可能性。如果结局的定义或测量不当，直接导致结局错分，从而造成模型的回归系数、截距(logistic回归和参数生存模型)和基线风险(Cox回归)都发生偏倚，影响模型效果评估。当预测模型研究的数据来自常规诊疗护理登记或现有研究时，研究者需要仔细评估结局确定方法的适当性。预测结局的定义和测量需要较强的临床知识，很多结局已经形成默认的推荐方法，建议直接参考使用。在常规诊疗护理登记中，可能根本没有记录结局数据，或者确定结局的方法不是最佳的或没有使用相同的方法确定结局，会导致结局遗漏或错误分类。在诊断准确性研究中，已发现大量研究由于使用了非最佳的参考标准而导致结局错误分类。与预测因子的测量(信号问题2.1)一样，涉及主观判断的结局(如基于影像学检查)的偏倚可能性更高。对于需要特殊技能或培训经验才能确定的结局，结局判定人员的经验和资质非常重要，若未进行严格质量控制，偏倚风险较高。

信号问题3.2

信号问题：结局是否是采用预先设定的标准的定义？

解读：该信号问题旨在评估由于选择性能更好的结局指标而导致的偏倚，这是一个典型的选择性报告结果的例子。使用预先规定的或标准的结局定义，并有临床指南、已发表研究证实，或已在实践中广泛运用时，偏倚风险较低。如果使用连续性变量(如量表)的非典型(非预先规定的)阈值来定义是否存在“结局”，则偏倚风险较高。如果测试了多个阈值，并使用其中最有利的结局定义，以实现模型性能的最佳估计，则偏倚风险较高。一般而言，若结局定义根据多个条件判断时，容易对各个条件掌握不准确，也可能会刻意过严或过松判断一些条件从而使模型性能更好，其均会产生较大偏倚风险。许多结局的定义都可基于共识确定，详见“有效性试验核心结局指标测量”(core outcome measures in effectiveness trials, COMET)倡议。对于是否为标准定义，一般需要专业的临床知识来判断，特别对于不是基于临床指南、已发表研究或广泛实践运用的定义。

信号问题3.3

信号问题：结局的定义中是否排除了预测因子？

解读：理想情况下，结局的测量应该与预测因子没有任何关系(见信号问题3.5)，但在某些情况下测量结局时很难完全避免预测因素的干扰，如结局本身需要专家参考尽可能多的信息才能判断，此时预测因子构成了结局定义或评估的一部分，预测因素和结局之间的关联强度容易被高估，模型性能也会被高估。在诊断准确性研究中，被称为合并偏倚(incorporation bias)。如果结局难以通过单独指标或检查确定，可能需要多个条件进行综合判断(如世界卫生组织对心肌梗死的诊断标准)，甚至会使用到很多预测因素的信息。类似于这样的共识法或专家小组判定法确定结局，也很容易导致合并偏倚。

信号问题3.4

信号问题：所有研究对象的结局定义和测量是否一致或相似？

解读：应按照与预测因子(信号问题2.1)相似的方式，对所有研究对象的结局进行相同的定义和同样的测量。当使用复合指标定义结局时，应始终以相同的方式对所有研究对象的各个指标进行判定，以确定结局是否发生。任何由于判定或测量方法不同导致的结局测量差异均会引起偏倚风险，如诊断方法的准确性不一样：当在预测健康成年人发生糖尿病的预后模型研究中，使用空腹血糖水平、口服葡萄糖耐量试验或自我报告等不同方式检测糖尿病；不同场景进行结局测量，由于测量频率不同导致结局差异，如访视次数越多越容易发现患病。基于不同目的收集的数据(如常规诊疗护理登记数据)并非预先设计好的研究，其结局的定义和测量方式可能会不同，模型偏倚风险往往较高。当结果需要主观解释时，其偏倚风险也会较高。

诊断试验有时不能对每个研究对象都采用完全相同的结局测量方法，如在肿瘤领域，作为金标准的病理检测只会用在已有检查结果阳性(如影像学检查)的个体中，阴性个体后续一般不会做任何进一步检查，或者采用其他准确性较低的替代确诊方法，此时会导致偏倚。

信号问题3.5

信号问题：结局的测定是否与预测因子无关？

解读：理想情况下，结局测量应该是在不知预测因子信息的情况下进行的。这与随机对照试验类似，在随机对照试验中，结局的测量需要对分组信息设盲。在预测模型研究中，知晓预测因素的信息可能会影响结局的测量，并导致模型预测性能不准确，通常都会高估预测因子与结局之间的关联。对于客观结局，如全因死亡、自然分娩或剖腹产，一般偏倚风险较低；但对于主观结局，如特定原因导致的死亡，其风险就会较高。

有些结局难以用单一的指标来判定，如信号问题3.3中所讨论。部分诊断和预后研究需要使用共识小组或终点确定委员会讨论决定，其结局的判定不可避免的会涉及预测因素的信息，其偏倚风险较高。如果研究目的是评估特定预测因子的增量值或比较模型的性能(如，使用同样的数据集验证多个模型性能并进行比较)，则对结局运用盲法显得非常重要。盲法的运用可以防止高估特定预测因子的增量值或避免人为拉高某个预测模型的预测性能。预测模型质量评价人员应仔细评估在测量结局时，是否知晓预测因素的相关信息。如果在测量结局期间知晓预测因素的信息或者不明确是否知晓预测因素的信息，则在该领域偏倚的总体判断中应做保守判断。

信号问题3.6

信号问题：预测因子的测量和确定结局之间的时间间隔是否合适？

解读：该信号问题旨在评估预测因素和结局之间的时间间隔是否合适(是否太长或太短)。预测因素与结局测量的时间间隔是否恰当，也需要较强的临床知识加以判断。诊断预测研究一般要求预测因素和结局指标的测量在同一时间点，因为间隔太长其结局性质可能会发生变化(如疾病康复或者恶化)；但有些诊断结局的测量和预后预测研究一样，也需要随访，此时，时间间隔太短会造成结局出现太少。对于慢性疾病，预测因素和结局测量间隔几天并不会产生较大问题，但对于急性传染病，即使是短暂的时间间隔可能也是不合适的。有时，用于预测因素和结局测量的生物样本是在同一时间点采集的，因此即使样本的检测是在后续开展的，其间隔时间也可以认为非常短。

预后预测模型研究中，预测因素和结局测量的时间间隔过短或过长都可能导致偏倚。其常见偏倚有以下两种方式：首先，如果时间间隔过短，无法检测到足够数量的结局事件出现，则其结局代表性不足。如，在手术切除结直肠癌肿瘤时预测是否会发生转移的研究中，转移结局的发生率可能会受到随访时间点的影响。由于当前检测方法的局限性，选择过早的时间点可能会导致检测到的转移瘤数量出现偏倚，尤其在较早的随访时间，转移瘤可能还没有长到足以检测的程度。其次，结局的类型可能也会受到时间间隔的影响。如，早期检测到的转移可能主要是肝转移，而在1年后，可能检测到的更多是骨转移。

结局领域偏倚风险等级评估指导说明详见表1。

表1 结局领域偏倚风险等级评估指导说明

背景： 当结局的定义和测量存在缺陷时，模型性能可能会出现偏倚。当所有研究对象没有运用相似的方法来进行定义和测量结局时，也可能会发生偏倚。

3.1结局的测量方法是否合适？
是/可能是(低风险)：结局的测量方法合适，或是来自指南推荐或引用自发表文献。
否/可能不是(高风险)：使用了明显不合适的方法判定结局，导致结局发生率或分类出现明显偏差；或未经很好质量控制的主观结局。
不清楚(风险不清楚)：没有结局定义及测量方法的相关信息。

3.2结局是否是采用预先设定的标准的定义？
是/可能是(低风险)：确定结局的方法是客观的，或者使用的是临床指南推荐的、既往发表研究采用的、已发表研究方案证实的标准方法，或者使用事先定好的分类方法。
否/可能不是(高风险)：确定结局的方法不是标准方法(如共识法、小组讨论法)或者不是事先确定好的分类方法。
不清楚(风险不清楚)：没有信息表明结局确定方法是否为标准方法或者是事先确定好的分类方法。

3.3结局的定义中是否排除了预测因子？
是/可能是(低风险)：结局的定义中不包括任何预测因素的信息。
否/可能不是(高风险)：结局的定义中包括一个或多个预测因素的信息。
不清楚(风险不清楚)：结局的定义中是否包括预测因素的信息并不清楚。

3.4所有研究对象的结局定义和测量是否一致或相似？
是/可能是(低风险)：所有研究对象都使用相同的方法来进行定义和测量结局。
否/可能不是(高风险)：有些研究对象使用了不同的方法来进行定义和测量结局。
不清楚(风险不清楚)：不清楚所有研究对象是否都使用了相同的方法来进行定义和测量结局。

3.5结局的测定是否与预测因子无关？
是/可能是(低风险)：在判定结局状态时不知道预测因子的信息，或明确声明结局状态的确定是在不了解预测因子信息的情况下进行的，或客观结局。
否/可能不是(高风险)：在判定结局状态时清楚知道预测因子的信息。
不清楚(风险不清楚)：不清楚在判定结局状态时是否知道预测因子的信息。

3.6预测因子的测量和确定结局之间的时间间隔是否合适？
是/可能是(低风险)：预测因子测量和结局测量的时间间隔是合适的，结局的判定分类和发生率都是正确的；或结局的判定分类和发生率不会受到预测因子测量和结局测量的时间间隔的影响。
否/可能不是(高风险)：预测因子测量和结局测量的时间间隔太短或太长，结局的判定分类和发生率都是有偏的。
不清楚(风险不清楚)：无预测因子测量和结局测量的时间间隔信息。

结局及测量引入的偏倚风险。
低风险：如果所有信号问题都判定为“是”或“可能是”，则偏倚风险为低。如果≥1个信号问题为“否”或“可能否”，且能提供偏倚风险可被推理为低的具体原因，仍可判定为低风险。
高风险：如果≥1个信号问题的答案为“否”或“可能否”，且未能提供偏倚风险可被推理为低的具体原因，则判为高风险。
风险不清楚：如果一些信号问题缺少相关信息，并且没有任何信号问题被判断为高风险(即其他信号问题都为“低风险”)时。

二、结局领域适用性风险等级评估

结局领域的适用性主要考虑结局的定义及测量方法、测量过程、测量时间与系统综述问题中指定的使用环境的匹配程度。如果对研究对象使用了不同的定义、测量方法或时间，可能会使适用性风险增加。如，使用了复合指标判定结局，但该复合指标的定义与实际使用场景中存在不同。

结局领域适用性风险等级评估指导说明详见表2。

表2 结局领域适用性风险等级评估指导说明

背景： 结局的定义、测量方法和测量时间应与所关注的综述问题相关。适用性风险等级评估主要围绕着结局的定义、测量方法和测量时间是否是与所要应用的场景相匹配，如使用的是通用的定义、测量方法和测量时间。

低风险：结局的定义、测量方法和测量时间与关注问题匹配。
高风险：结局的定义、测量方法和测量时间与关注问题不匹配。
风险不清楚：未报告结局的定义、测量方法和测量时间是否与所关注问题相匹配的信息。

本文内容是参考相关文献后对预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)工具的概述，仅代表本网站观点。关于PROBAST工具的更多内容可参考Robert F Wolff等发表的文章PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies ，或Karel G M Moons等发表的文章PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies: Explanation and Elaboration 。

我要纠错

End

预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)(四)

预后研究(预测模型)质量评价(Prediction model Risk Of Bias ASsessment Tool, PROBAST)(六)