诊断实验(Diagnosis Test)研究概述三——金标准

2022年4月30日星期六发布于 11:50:30 浏览：15923

原创不易，转载请注明来源，感谢！

诊断试验准确性评定的参照标准主要是金标准，如何合理认识、选择和运用金标准对诊断试验研究结论的可靠性十分重要。本文举例概述诊断试验研究中金标准的作用、常用类型、认识误区及应用中的注意事项。

关键词：诊断试验; 诊断试验评价; 金标准; 不完善的金标准

一、诊断试验研究中金标准的作用

金标准是指当前国内外行业内公认的最好的对某种疾病或健康状态准确可靠的诊断方法，一般作为临床上明确或排除某种疾病的标准。金标准通常具有精确、复杂、昂贵和对患者有一定痛苦或危害等特点，临床上常利用诊断试验研究发掘一些更为简便、易行、痛苦少的试验方法来辅助疾病诊断，通常情况将金标准常作为待评估试验诊断效能的参照标准。

二、诊断试验研究中金标准的常用类型

(一) 病理活检

病理诊断是根据肉眼观测器官的大体改变，结合镜下观察组织结构和细胞病变特征而做出的疾病诊断。依据患者的生存状态不同，可分为活检和尸检，诊断试验研究中通常使用病理活检。

据统计，不同检查或诊断方法对肿瘤性质判断的准确率从低到高依次是，病史、临床症状及体检信息综合判断，X线摄片、CT检查、超声检查、磁共振成像(MRI)等影像学手段，病理检查。其中病理检查诊断肿瘤性质的准确率可达99%以上。因此，病理检查结果被视为是带有宣判性质的、权威性的诊断，常被认为是“doctor’s doctor (医生的医生)”。目前临床上，乳腺癌、肺癌、胃癌等绝大多数恶性肿瘤的最终诊断均依据病理检查结果。

(二) 影像学检查

医学影像学检查主要包括超声检查、X线摄片、CT检查、MRI、数字减影血管造影(DSA)等。对部分疾病来说，影像学检查既可作为疾病筛查的手段，也可作为疾病诊断的金标准。

如乳腺癌的临床诊断中，一般先使用彩超、钼靶和乳腺MRI等影像学手段筛查，对提示风险较高的人群再使用病理检查明确诊断，此时影像学检查是疾病最终确诊前的重要筛查手段。而在冠心病的诊断中，虽然确诊金标准是冠状动脉造影，但对于一些不能耐受冠状动脉造影检查的患者，也可使用血管内超声和冠状动脉CT等影像学检查结果作为诊断标准。

(三) 病原体分离、培养和鉴定

病原体的分离、培养和鉴定对感染性疾病的流行动向监测、疫苗研发及替代诊断方法的研究十分重要。在新发传染病中应用较多。

新发传染病中，若血清学检测产生交叉反应无法区分病原体，或多种病原体可引起同一症状的疾病无法鉴别时，则需要分离、培养和鉴定病原体。而常见传染病中，一般使用抗原、抗体检测结果即可确诊，无需分离、培养和鉴定病原体，如HIV抗体确诊试验阳性即可诊断为HIV感染。

(四) 临床综合性诊断

临床上一些疾病的诊断并无可靠的生物标志物或影像学检查方法，则需要由相关专家依据患者的临床表现和病史综合考虑并制定临床诊断标准，获得同行公认后，可作为疾病诊断的金标准。

如阿尔兹海默病的诊断标准主要有美国精神病协会制订的DSM-R标准，世界卫生组织国际疾病分类(ICD-10)诊断标准，美国神经病学、语言障碍和脑卒中—老年性痴呆和相关疾病学会(NINCDS-ADRDA)标准3种，均是基于患者的病史、临床表现及相关检查结果综合分析而诊断疾病的方法。

(五)其他

一些国际标准化委员会确定的用于校正仪器或证实某种检测方法的物理、生物、化学物质的标准品也可被认为是金标准。长期随访所得的结论(如慢性胰腺炎)也可认为是金标准。

三、诊断试验研究中金标准的认识误区

(一) 金标准一定要选择准确率最高的

金标准的确定须密切结合临床实际和可行性，未必选择准确率最高的方法。若某些疾病诊断准确性最高的方法非常复杂且费用昂贵，或可能对患者造成较大的危害或痛苦，此时应采用其他公认的最优临床诊断方法作为金标准。

(二) 金标准百分百准确

在“医学研究之诊断试验的样本量计算——单组设计的灵敏度与特异度检验”案例中，介绍“标准方法(病理活检)的灵敏度为85%，特异度为80%”，让部分读者有点迷惑，不是金标准吗？为什么还有灵敏度和特异度？难道金标准也不准吗？

生活中，我们默认24K金为纯金，然而100%的“纯”金只存在于理论中，我国一般规定含量达到99.6%以上(含99.6%)的黄金即可称为24K金。金标准也类似，100%准确的金标准是不存在的，没有一种方法可以100%检验出所有真正患病者。上文的例子中提到了，病理检查对诊断肿瘤性质的准确率可高达99%，以此为例辅助理解为什么病理检查无法做到100%准确。

病理检查是一个复杂的过程。它主要包括取材、脱水、制片、阅片等环节，每一步的操作质量都与最终诊断的准确性息息相关。如内镜检查时，可能由于病变较小，内镜下未采到真正病变的组织而造成漏诊。制片时未切到病变截面而造成漏诊。阅片时很容易受到病理医师专业水平的影响而造成结果偏差。
不同阶段的疾病病理学特征不同。如许多恶性肿瘤早期并未表现出明确的病理学特征，据报道在一次维也纳举行的胃肠道早期肿瘤研讨会上，来自多国的多位有影响的病理专家依据共同制定的诊断标准对35例早期胃癌、20例早期大肠癌和21例早期食管癌组织的病理切片进行诊断，其结果的一致率仅有71%、65%和62%。
疾病的发病率可能影响诊断的准确性。通常情况下，典型的常见病例多能准确诊断，而一些罕见的疑难病例则往往误诊的可能性较大。如一次全国性的病理学术会议上，当时国内顶尖的11位病理专家对一个颈部淋巴结肿大而临床医生怀疑是鼻咽癌转移患者的病理切片进行会诊，结果出现了多份迥然不同的报告——炎症、良性肿瘤、恶性肿瘤等，其中只有一位专家认同是鼻咽癌转移。一直到14年后病人死于鼻咽癌，才终于证明只有这一位专家的诊断是正确的。

(三) 金标准是一成不变的

金标准都是特定历史条件下医学发展的产物，具有时效性，不仅会随着医学的发展，认识的不断深入而改变，也会因为不同人群地区认识和选择不同而改变。

以2019新型冠状病毒(2019-nCoV)为例，截至发稿时，其诊疗方案已经更新过9个版本，几乎每个版本对新冠患者的确诊标准都进行了相应调整(图1)。在研究中也应根据最新的诊断标准进行调整。

以高血压定义为例，人的血压数值是连续性变量，并不存在一个自然的客观的高血压阈值。为了研究血压与心血管事件的关系，人为设定高血压的阈值，不同组织或国家，如世界卫生组织、美国、欧洲、日本、我国对高血压的定义均存在一定区别。高血压的诊断标准可根据不同的定义而改变。

(四) 所有疾病都有金标准

目前临床有一些疾病自身并无诊断金标准，最终诊断主要是依赖于多个证据排除其他可能疾病后得出。

如结节病的诊断就是一个排除性诊断，不能单凭组织病理学表现进行确诊。目前主要由临床医师根据临床表现、影像学特征、受累部位的病理活检结果，再结合病史、血清学检查结果、支气管镜检查结果等，除外其他原因引起的肉芽肿性疾病后，方可确诊。(中华结核和呼吸杂志, 2019, 42(9): 685-693.)，诊断流程见图2。此外，特发性间质性肺炎、克罗恩病等均尚无诊断金标准。

四、诊断试验中应用金标准的注意事项

2011版诊断试验研究准确性评价工具(Quality Assessment of Diagnostic Accuracy Studies, QUADAS)中对金标准的执行情况评估提出了指导性条目(图3) (湖北医药学院学报, 2013, 32(3): 201-208.)。主要包括了在金标准实施前须对其本身及实施过程进行描述说明；实施过程和结果解释中根据金标准是否可以正确地区分目标疾病和判读结果，是否使用了盲法评估偏倚风险；病例流程和进展中根据金标准和待评价试验间的时间间隔，金标准在评估患者疾病状态时数量和种类的一致性，是否所有病例均纳入研究中来评估偏倚风险。在实际研究中，可借鉴QUADAS指导性条目对金标准合理运用。

(一) 金标准和待评估的诊断试验应相互独立

金标准的意义在于能最大程度地区分临床上真正有病和无病的人群，最大程度避免错误分类误差。若待评估的诊断试验是金标准的一部分，则会导致“掺和偏倚(incorporation bias)”，错误地高估待评价诊断试验的准确性。

(二) 判读金标准和待评估诊断试验结果时应采用盲法

如果检测人员进行待评估诊断试验结果时已知金标准结果，主观上就会产生倾向性，错误地高估待评估试验的准确性。反之，也会造成诊断试验研究结果的偏倚。

(三) 金标准和待评估诊断试验检查的时间间隔应尽可能短

随着时间的推移，疾病状态的改变或发展，可能会造成金标准和待评估诊断试验结果的不一致，从而影响诊断试验研究的准确性。所以时间间隔应尽可能缩短。

(四) 诊断试验研究并非一定要选择金标准

一方面，实际研究中需考虑金标准的可行性和伦理学等问题，结合临床患者实际情况进行标准方法的选择。如大多数金标准的诊断很复杂、费用比较昂贵且带有侵入性，研究中是否可行；部分被试对象具有金标准检查的禁忌症，出于安全性角度和伦理要求，并不能进行金标准检测，而如果排除这部分受试者，又将引入研究对象的选择偏倚，此时其他可替代诊断标准也是行之有效的解决方案。基于此种情况，其替代标准一般是专家委员会构建的“经验金标准”，并最好使用贝叶斯方法对灵敏度和特异度进行估计；或者使用金标准检测其中的一部分有代表性的受试者(有时也称为部分验证研究或两阶段研究)，然后用校正的方法进行特异度和敏感度的估计，再或者检测所有诊断试验和替代金标准结果不一致的受试者。

另一方面，部分疾病的诊断既不存在金标准，也不能构建“经验金标准”。对于此类疾病的诊断试验研究主要比较两种或多种诊断试验的结果是否一致。需要注意的是，一致性的高低和诊断试验的准确性没有必然联系。即一致性好，有可能不同方法的灵敏度和特异度都很低；或虽试验的准确度都较高，但由于各自诊断错误的患者特征不同，则其一致性可能会较差。

此外，国家药监局2021年9月发布的《体外诊断试剂临床试验技术指导原则》相比2014版，将“金标准”一词替换为“临床参考标准”，要求“临床试验方案中应描述对比方法的选择依据”，并未再强调“金标准”，这正体现了对“金标准”认识的不断发展，用“临床参考标准(Clinical reference standard)”的表述可能更加合适。

我要纠错

End

诊断实验(Diagnosis Test)研究概述二——盲法