诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价——Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2 (上)

2024年7月12日星期五发布于 11:27:03 浏览：4272

原创不易，转载请注明来源，感谢！

诊断试验(Diagnostic test)是指通过应用各种临床试验和医疗仪器等手段对就诊者进行检查，并分析检查结果以诊断或鉴别疾病状况的试验。诊断试验结果的可靠性取决于其研究方法及过程的质量。诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价工具(Quality Assessment of Diagnostic Accuracy Studies, QUADAS)是Cochrane协作组和英国国家卫生与临床优化研究所(NICE)推荐用于评价单个DTA研究的工具。本文介绍了QUADAS-2的制定背景、与QUADAS的区别、使用方法及评价结果展示。QUADAS-2的条目清单及详细内容详见诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价——Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2 (下)。

关键词：Meta分析; 诊断试验准确性研究质量评价; 筛查试验准确性研究质量评价; 诊断试验质量评价; QUADAS-2

一、QUADAS-2的制定背景

QUADAS最早发布于2003年，并得到广泛应用。第一版QUADAS包含14个条目，用于评估偏倚风险、变异来源(适用性)和报告质量。每个条目都被评为“是(Yes)”“否(No)”或“不清楚(Unclear)”，最后根据各条目的评分得出质量评价总分。使用者通常将“是”计为1分，“否”计为-1分，“不清楚”计为0分，但这种方法忽略了不同条目对结果影响的差异。此外，第一版QUADAS存在一些条目表述不明确、难以判断的问题，如条目13中的“是否报告了难以解释/中间试验结果”中的“难以解释/中间试验结果”定义不清晰。2011年，QUADAS进行了内容和形式上的更新，形成了当前最新的QUADAS-2版本。

二、QUADAS-2与QUADAS的区别

QUADAS-2在QUADAS的基础上进行了改进，删除了易混淆的条目内容，主要针对四个关键领域进行评估：病例选择(patient selection)、待评价试验(index test)、金标准(reference standard)以及病例流程和诊断试验与金标准之间的时间间隔(flow and timing)。这些领域的评估旨在衡量偏倚风险和适用性这两个核心方面。最终，每个领域的偏倚风险和适用性将被评为“高(High)”“低(Low)”或“不清楚(Unclear)”。QUADAS-2与QUADAS的主要区别在于：

将原始研究质量评价划分为“偏倚风险”和“适用性”两个核心方面；
在“偏倚风险”评价中，内容被限定为四个关键领域，并通过增加信号问题来帮助评价者进行判断；
扩大了QUADAS的适用范围，QUADAS-2可用于评估多种DTA研究以及包含随访但不涉及预后问题的研究；
QUADAS-2将QUADAS中的条目评级“是”“否”“不清楚”变更为偏倚风险的“低”“高”和“不清楚”，这与Cochrane系统综述中对偏倚风险的评估一致。

三、QUADAS-2使用方法

QUADAS-2总体上分为两个部分，即研究设计的偏倚风险评估和适用性评估。偏倚风险评估是对研究设计质量的评价，旨在确定诊断准确性估计中避免偏倚风险的程度；适用性评估则衡量纳入研究与系统评价的“吻合程度”，即原始研究对综述问题的适用性。QUADAS-2的偏倚风险评估部分涵盖四个关键领域：病例选择、待评价试验、金标准、病例流程和诊断试验与金标准之间的时间间隔。每个领域包含2至3个问题，帮助系统评价员评估单个研究在该领域中的偏倚风险。应用QUADAS-2开展DTA研究质量评价包括4个步骤：

(一) 提出研究问题

类似于临床研究中的PICOS原则，在评估DTA研究质量时，评价者需首先明确以下五个要素：纳入的病例(patients, P)、待评价的诊断试验(Index test, I)、金标准(Reference standard, R)、结局疾病(Outcome/Target condition, O)和研究类型(Study design, S)。由于DTA研究的准确性可能受到其在诊断路径上应用位置的影响，评估者应注意待评价试验的主要用途是作为现有诊断方法的补充(add-on)还是替代(replace)。因此，有必要详细描述病例所处的环境、患者的临床表现以及之前接受的诊断方法及其结果。

(二) 建立综述专用的QUADAS-2及评价指南

QUADAS-2要求综述者根据其研究需求对工具进行调整，包括增减信号问题，并制定专用的评价指南，以指导如何评价每个信号问题并使用这些信息来判断整体偏倚风险。建立系统综述专用QUADAS-2工具的步骤如图1所示：

第一步：根据实际情况，评价者若发现QUADAS-2中的某些信号问题不适用于所开展的系统综述，可以对这些问题进行删减。若信号问题不足以覆盖综述所研究的问题，则应适当增加，但要避免增加过多以致工具过于复杂。无论进行何种调整，都应明确报告调整的理由。

第二步：评价者对所调整的内容达成共识，然后制定专用的偏倚风险评价指南。

第三步：由至少两位研究者独立使用调整后的QUADAS-2工具对少数研究进行预评价。

第四步：如果第三步中评价者之间的一致性较好，则可以使用此工具评价所纳入的全部研究；相反，如果一致性较差，则需要进一步修改工具，并重复步骤1至3，直至获得一致性较好的QUADAS-2工具，用于所有纳入原始研究的评价，即完成步骤4。

(三) 绘制流程图

评价者需要为每个纳入的原始研究准备流程图，以便在评价中判断偏倚的风险。如果原始研究已经发表了详细的流程图，可以直接使用；如果没有报告流程图或已发表的流程图不够详细，综述者可以自行绘制流程图。需要说明的是，流程图不需要作为QUADAS-2评估的一部分正式报告，因此手绘流程图即可满足需求。

(四) 判断偏倚风险和适用性

QUADAS-2的四个关键领域都需要进行偏倚风险的评估。偏倚风险评估包括三部分：支持偏倚风险判断的信息、信号问题和偏倚风险的判断。

记录支持判断偏倚风险的信息：目的是使评价过程透明化，并方便独立评价者之间的讨论。
信号问题：用于辅助偏倚风险的判断，每个问题需要回答“是”“否”或“不清楚”。
偏倚风险的判断：以信号问题的回答为依据，分为“低”“高”或“不清楚”。

评价者应使用在第二步制定的评价标准来判断偏倚风险。如果所有信号问题的答案都是“是”，表示低偏倚风险；如果有某个信号问题的答案是“否”，则表示存在偏倚风险；其他情况则判断为“不清楚”。评价者可以合理制定自己的评价标准，但需要注意的是，该标准应在正式评估前(第二步)制定，任何根据信号问题的回答而对评价标准进行调整的做法都是不合适的。

判断适用性部分的组织设计与偏倚风险评估部分相似，但不设置信号问题。评价者记录用于判断适用性的信息，然后对纳入研究与系统综述研究问题的匹配程度进行评级。根据匹配程度不同，适用性评级分为“低”“高”或“不清楚”。需要强调的是，适用性应结合系统综述的研究问题进行评价，这部分不属于偏倚风险的内容，评价者可以选择是否进行适用性评价，但应在正式评估前确定，以避免选择性报告结果。适用性评价应参照第一步记录的综述研究问题。同样，“不清楚”选项只能在研究报告的数据不足以进行质量评价时使用。

四、评价结果展示

系统综述应总结QUADAS-2对所有纳入研究的评价结果，使用QUADAS-2进行偏倚风险评价不需要计算总结性的“质量得分”，因为该工具并非量表。评价结果可从以下几个方面进行报告：

如果所有原始研究的偏倚风险均被判断为“低”，则总体评为“低偏倚风险”。如果研究的一个或多个领域被评为“高”或“不清楚”，则总体结论应为“存在偏倚风险”。
总结每个领域中评为“低”“高”或“不清楚”偏倚风险的研究数量。
着重描述原始研究中普遍评级较差或较好的信号问题和领域。
可同时报告适用性评级，报告的方面与偏倚风险评价类似。

QUADAS网站提供了展示质量评价结果的Excel表 (表1)和总体质量评价结果的图模版(图2)。

注：本文内容是参考相关文献后对Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2的概述，仅代表本网站观点。关于QUADAS-2的更多内容详见网站https://www.bristol.ac.uk/population-health-sciences/projects/quadas/quadas-2/。

我要纠错

End

横断面研究质量评价——JBI标准

诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价——Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2 (下)