诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价——Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2 (下)

发布于 2024年7月12日 星期五 11:50:19 浏览:778
原创不易,转载请注明来源,感谢!

诊断试验准确性(diagnostic test accuracy, DTA)研究质量评价——Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2 (上)一文中介绍了QUADAS-2的制定背景、与QUADAS的区别、使用方法及评价结果展示。本文继续介绍QUADAS-2的条目清单及清单详细内容。

关键词:Meta分析; 诊断试验准确性研究质量评价; 筛查试验准确性研究质量评价; 诊断试验质量评价; QUADAS-2

四、QUADAS-2条目清单

Domain
领域
Questions
问题
Explanation
解释
Response options
回答选项
Patient Selection
病例选择
Signaling Questions
信号问题
1. Was a consecutive or random sample of patients enrolled?Yes/No/Uncler
译文:1. 研究对象是否是连续纳入或随机招募的?是/否/不清楚
2. Was a case-control design avoided?Yes/No/Uncler
译文:2. 是否避免了病例-对照设计?是/否/不清楚
3. Did the study avoid inappropriate exclusions?Yes/No/Uncler
译文:3. 是否避免了不恰当的病例排除?是/否/不清楚
Risk of bias
偏倚风险
Could the selection of patients have introduced bias?Low/High/Unclear
译文:病例的选择是否会带来偏倚?低/高/不清楚
Applicability concers
适用性
Are there concerns that the included patients and setting do not match the review question?Low/High/Unclear
译文:原始研究中纳入的病例特征是否与系统综述所关注的患者相符?低/高/不清楚
Index Test
待评价的试验
Signaling Questions
信号问题
1. Were the index test results interpreted without knowledge of the results of the reference standard?Yes/No/Uncler
译文:1. 待评价试验的结果判断是否是在不知道金标准试验结果的情况下进行的?是/否/不清楚
2. If a threshold was used, was it prespecified?Yes/No/Uncler
译文:2. 如果采用了阈值,那么是否是预先设定的?是/否/不清楚
Risk of bias
偏倚风险
Could methods used to conduct or interpret the index test have introduced bias?Low/High/Unclear
译文:待评价试验的实施或解释是否会产生偏倚?低/高/不清楚
Applicability concers
适用性
Are there concerns that the index test, its conduct, or interpretation differ from the review question ?Low/High/Unclear
译文:原始研究中诊断试验的实施或解释是否与系统综述中不同?低/高/不清楚
Reference Standard
金标准
Signaling Questions
信号问题
1. Is the reference standard likely to correctly classify the target condition?Yes/No/Uncler
译文:1. 金标准是否可以准确地区分目标疾病?是/否/不清楚
2. Was the reference standard results interpreted without knowledge of the results of the index test?Yes/No/Uncler
译文:2. 金标准的解释是否是在对待评价诊断试验结果不知情的情况下做出的?是/否/不清楚
Risk of bias
偏倚风险
Could methods used to conduct or interpret the reference standard have introduced bias?Low/High/Unclear
译文:金标准的实施及解释是否会产生偏倚?低/高/不清楚
Applicability concers
适用性
Are there concerns the target condition as defined by the reference standard does not match the question ?Low/High/Unclear
译文:金标准所定义的目标疾病是否与系统综述中所关注的目标疾病不符?低/高/不清楚
Flow&Timing
病例流程和诊断试验与金标准的时间间隔
Signaling Questions
信号问题
1. Was there an appropriate interval between index tests and reference standard?Yes/No/Uncler
译文:1. 待评价试验和金标准之间的时间间隔是否恰当?是/否/不清楚
2. Did all patients receive the same reference standard?Yes/No/Uncler
译文:2. 是否所有的患者都执行了相同的金标准?是/否/不清楚
3. Were all patients included in the analysis?Yes/No/Uncler
译文:3. 是否所有的患者都纳入了分析?是/否/不清楚
Risk of bias
偏倚风险
Could the patient flow have introduced bias?Low/High/Unclear
译文:病例的流程是否会产生偏倚?低/高/不清楚

五、QUADAS-2条目清单详细内容

(一) 领域1:病例选择

信号问题1

研究对象是否是连续纳入或随机招募的?此条目主要评估病例对源人群的代表性。理想情况下,研究应纳入所有符合条件的可疑患者的连续或随机样本,以避免潜在偏倚。如果原始研究在一定时间范畴内纳入的是的连续或随机病例,则信号问题1评为“是”;如果纳入的是非连续或非随机病例,则评为“否”。例如,专门选择重症的病例或根据就诊时间选取病例均不是连续纳入或随机纳入。如果研究仅报告了纳入时间范畴,但未说明是否为连续或随机病例,则评为"不清楚" 。较多的DTA研究并未预先设立纳入和排除标准,然后连续招募研究对象。一些研究中的病例组和对照组是分别招募的,且其组成也是假定的。例如,为探讨某标志物诊断某疾病的准确性,选择了一些已确诊的患者为疾病组,同时选择一些其他易混淆疾病的患者为对照组,此时疾病组和对照组的比例均是虚拟的,不能很好地代表源人群。这样招募的患者特征与临床真实环境中的患者特征可能相差甚远。有的DTA研究选择了健康个体作为对照,这也会引入偏倚,因为,健康对照并不需要借助待评价试验来区分是否患病。

信号问题2

是否避免了病例-对照设计? 在DTA研究中,病例-对照设计指在已知患者是否患病的前提下,评估患者在发病前某特征的诊断价值。例如,招募近期确诊的肝癌和肝内囊肿患者,分析他们一年前的甲胎蛋白水平对肝癌的诊断价值,即为典型的病例-对照设计。在这种设计中,患者被选择进入诊断试验组,而非患者被选择进入对照组,这一选择过程因知晓患者身份可能影响选择的随机性。此外,研究者在知晓患者病情的情况下可能影响待评价试验结果的判读。相反,在非病例-对照设计的研究中,尤其是横断面研究中,疾病的临床诊断通常与待评价试验独立进行,即“金标准”在未知待评价试验结果的情况下实施,从而降低偏倚风险。病例-对照设计往往会高估待评价试验的准确性。在具体评价时,如果研究采用非病例-对照设计,则评为“是”;若采用病例-对照设计,即一组为病例,另一组为非病例,则评为“否”;若提供的资料不足以判断,则评为“不清楚”。

信号问题3

是否避免了不恰当的病例排除?不恰当的病例排除指设置了一些不合理的条件,将部分目标人群的患者排除研究。例如,排除诊断难度较大或较易诊断的患者,或设立一些明显不科学的排除标准,如探讨甲胎蛋白对肝癌的诊断价值时,将患有高血压的患者排除在外。如果排除了诊断难度较大的患者,可能会高估待评价试验的准确性;反之,如果排除了较易诊断的患者,则可能会低估准确性。设立明显不科学的排除标准则难以评估其对准确性的影响。在评价过程中,如果研究排除了难以诊断或易于诊断的病例,评价为“否”;否则评价为“是”;如果没有报告相关信息,则可认为是“不清楚”。

偏倚风险

病例的选择是否会带来偏倚?在该领域,偏倚风险的判断主要依据三个信号问题进行。如果其中一个问题回答为“否”,则应判断为“高风险”;如果所有问题均回答为“是”,则判断为“低风险”;如果有一个或多个问题回答为“不清楚”,而其他问题回答为“是”,则定义为“风险未知”。

适用性

原始研究中纳入的病例特征是否与系统综述所关注的患者相符?尽管适用性和风险偏倚的评估都参考上述三个问题,但两者的评价侧重点有所不同。适用性主要考察待评价试验的研究内容与系统综述评价内容的吻合程度。在该领域,如果待评价试验中的病例与系统综述关注的病例在某些方面存在差异,例如人口学特征、疾病的严重程度、并发症等,则需要考虑适用性问题。如果两者差异较大,则判断为“高风险”;如果差异较小,则判断为“低风险”;如果提供的信息较少,难以判断差异,则定义为“不清楚”。

(二) 领域2:待评价的试验

信号问题1

待评价试验的结果判断是否是在不知道金标准试验结果的情况下进行的?诊断方法可以基于主观指标(如内镜、CT和量表)或客观指标(如实验室检查结果)。对于客观指标,结果主要由仪器检测,判断时评价者是否知晓患者的最终诊断并不会影响结果,因此此类情况可忽略该问题。但对于主观指标,如果评价者预先知晓患者的最终诊断,可能会影响结果判断,从而夸大诊断价值。因此,应说明最终诊断是否对待评价试验的评价者设盲。如果待评价试验始终是在金标准制定之前实施,或文章中明确说明评价者是在不知晓“金标准”结果的情况下判读待评价试验结果,则该条目评定为“是”;相反则评为“否”;如果文章未提及此信息,则评为“不清楚”。

信号问题2

如果采用了阈值,那么是否是预先设定的?该问题主要针对评价指标为连续变量的情况,且在QUADAS-2中新增。如果推荐的阈值是根据数据驱动选择的,即根据灵敏度和/或特异度选择的最优结果(通常通过受试者工作特征曲线分析标志物的诊断性能,并选择约登指数最大的界点作为推荐的诊断界值),那么可能会高估准确性。正确的方法是在分析数据之前预先设定诊断阈值。在评价过程中,如果研究所使用的阈值是在研究实施前就确定的,则判定为“是”;相反,则为“否”;信息不足以判断时,则为“不清楚”。一些研究会同时设立训练集和验证集,在训练集中得到一个阈值,然后在验证集中进行再评价。对于此类研究,系统评价时可以将其视为两个独立的研究分开讨论,但评价其验证集的阈值可能更为合理。对于部分主观评价指标手段,例如量表,其结果以连续变量的形式表示,也需要绘制受试者工作特征曲线并确定诊断阈值,此时也需要考察阈值是否预先设定。

偏倚风险

待评价试验的实施或解释是否会产生偏倚?在该领域,偏倚风险的判断主要依据两个信号问题进行。如果其中一个问题回答为“否”,则应判断为“高风险”;如果所有问题均回答为“是”,则判断为“低风险”;如果两个问题均回答为“不清楚”或一个问题回答为“不清楚”,另一个问题回答为“是”,则定义为“风险未知”。

适用性

原始研究中诊断试验的实施或解释是否与系统综述中不同?主要分析待评价的诊断试验与系统综述中诊断手段的吻合程度。诊断试验的技术、实施和解释都可能影响其准确性的估计。因此,如果诊断试验的方法与系统综述中的说明不同,就需要考虑适用性的问题。例如,不同的阈值会影响准确性,如果原始研究中的诊断试验阈值与系统综述中不同,则评为“高风险”。同样,如果待评价诊断试验的技术、实施和解释与系统综述中不同,也评为“高风险”;相反,则为“低风险”。如果提供的信息有限,不能判断是否存在差异,则评为“不清楚”。

(三) 领域3:金标准

信号问题1

金标准是否可以准确地区分目标疾病?金标准是指当前国内外公认的、用于准确可靠诊断某种疾病或健康状态的最佳方法,通常作为临床上确诊或排除某种疾病的标准。该问题强调金标准必须能够准确及时地区分出待评价对象是否患病,选择恰当的金标准在DTA研究中至关重要。在评价过程中,如果研究所用的金标准能够正确区分目标疾病,或已经是现有疾病诊断的最佳方法,则判定为“是”;否则判定为“否”;如果判断依据不足,则评为“不清楚”。关于金标准的内容详见诊断实验(Diagnosis Test)研究概述三——金标准

信号问题2

金标准的解释是否是在对待评价诊断试验结果不知情的情况下做出的?这一条目类似于待评价诊断试验的信号问题,即金标准结果的判读是否使用了盲法(金标准不能受到待评价试验结果的干扰)。如果预先知道待评价诊断试验的结果,可能会影响对金标准试验结果的解释,导致潜在偏倚。例如,评价某肿瘤标志物对肺癌的诊断价值时,虽然肺癌的诊断金标准是病理学检查,但如果病理检查的医生已经知晓了该标志物的结果(未设盲),则更可能倾向于把标志物水平增高的患者判断为肺癌。因此,金标准结果的判读如果是在不知晓待评价试验结果的情况下进行的,则评价为“是”;相反,则为“否”;如果难以判断,则为“不清楚”。

偏倚风险

金标准的实施及解释是否会产生偏倚?在该领域,偏倚风险的判断主要依据两个信号问题进行。如果其中一个问题回答为“否”,则应判断为“高风险”;如果所有问题均回答为“是”,则判断为“低风险”;如果两个问题均回答为“不清楚”或一个问题回答为“不清楚”,另一个问题回答为“是”,则定义为“风险未知”。

适用性

金标准所定义的目标疾病是否与系统综述中所关注的目标疾病不符?这里需要考虑两点:首先,原始研究中使用的金标准是否与系统综述中定义的金标准相同;其次,即使采用相同的金标准,其对目标疾病的定义是否一致,即是否采用相同的阈值来判断患者与非患者。绝大部分DTA研究中金标准的适用性为低风险,这主要是因为如果研究采用的金标准不能准确鉴别疾病,论文几乎无法发表。有的研究会被评定为“不清楚”,主要是因为研究对金标准的描述较少或较为含糊,无法进行评价。适用性方面被评定为“高风险”的研究,主要是因为采用了过时的金标准。如果原始研究在开展时采用的金标准当前已经被废除或取代,则该模块可以评定为“高风险”。

(四) 领域4:病例流程和诊断试验与金标准的时间间隔

信号问题1

待评价试验和金标准之间的时间间隔是否恰当?疾病的病程是不断变化的,尤其是某些急性疾病变化非常迅速。无论是诊断试验还是金标准试验的延迟,都可能导致结果的错误分类。因此,最理想的状态是同时收集同一患者的诊断试验和金标准试验的结果,但在实际研究过程中,这种理想状态往往难以实现。对于慢性病,短期间隔可能影响不大,但对于急性感染性疾病,则可能有较大影响。因此,有必要规定一个合理的时间间隔,以判断在此期间是否发生了目标疾病,并在正式使用QUADAS-2前确定这一时间间隔。如果待评价试验和金标准实施的间隔在规定范围内,则评价为“是”;如果超出了该时间间隔,则评价为“否”;如果信息不足,则评价为“不清楚”。

信号问题2

是否所有的患者都执行了相同的金标准?如果待评价诊断试验的结果影响了是否执行金标准或使用哪个金标准,那么诊断准确性的评估可能会产生偏倚。例如,在高敏感度肌钙蛋白检测排除急性心肌梗死的研究中,如果对阳性患者进行标准的肌钙蛋白检测和心电图检查(金标准1),而对阴性排除者通过临床随访确定是否发生心肌梗死(金标准2),则可能会将假阴性结果错分为真阴性,因为临床随访可能漏掉那些诊断试验结果为阴性的急性心肌梗死患者,从而高估高敏感度肌钙蛋白检测的准确性。

所有的研究对象都应通过相同的金标准进行诊断和排除,疾病组必须经过金标准确诊,对照组也必须经过金标准排除。如果研究中只有部分研究对象接受了金标准,或一些患者接受了不同的金标准,就可能会发生验证偏倚(Verification bias)。在一些DTA研究中,尽管疾病组是经过金标准确诊的,但未说明对照组是否经过金标准排除。如果对照组未经过金标准排除,可能会合并待研究的疾病。这种情况在“双门设计”的诊断试验中尤为常见,即病例组和对照组是分开招募的,通常未对对照组使用金标准排除。例如,在某评价某血清蛋白质标志物诊断肝癌的研究中,研究者纳入了肝炎和肝硬化患者作为对照,肝癌是通过病理学确诊的,但肝炎和肝硬化主要通过实验室检查、影像学检查和临床表现确诊。众所周知,肝硬化和肝癌可同时发生,如果仅因确诊肝硬化就排除肝癌,显然不合理。实际评估中,如果可以明确所有病例均接受了同一个金标准验证其疾病状态,则判定为“是”;相反则为“否”;如果研究未报告该信息,则评价为“不清楚”。

信号问题3

是否所有的患者都纳入了分析?一旦研究对象被招募进入研究,其数据就应该被纳入分析。然而,在一些DTA研究中,由于各种原因,某些患者的数据可能未能进入最终分析。这些原因可能包括患者拒绝全面检查导致关键数据缺失、患者虽然接受了全面检查但最终诊断仍不明确、或患者标本无法使用等。由于失访者与随访到的研究对象之间可能存在系统性的差异,因此未纳入分析的研究对象可能会引起潜在的偏倚。在评价过程中,如果所有病例都被纳入分析,则评价为“是”;如果结果分析时有病例遗漏,则评价为“否”;如果未说明或无法判断是否所有病例都纳入了分析,则评价为“不确定”。

偏倚风险

病例的流程是否会产生偏倚?偏倚风险的判断主要依据三个信号问题进行。如果其中一个问题回答为“否”,则应判断为“高风险”;如果所有问题均回答为“是”,则判断为“低风险”;如果有一个或多个问题回答为“不清楚”,而其他问题回答为“是”,则定义为“风险未知”。

注:本文内容是参考相关文献后对Quality Assessment of Diagnostic Accuracy Studies (QUADAS)-2的概述,仅代表本网站观点。关于QUADAS-2的更多内容详见网站https://www.bristol.ac.uk/population-health-sciences/projects/quadas/quadas-2/

End
文章目录 沉浸式阅读