关键词:加强观察性流行病学研究报告质量; 观察性研究; 诊断试验准确性研究; 报告规范; 诊断试验准确性研究报告标准; STARD
四、方法
(二) 试验方法
【条目10a】充分描述待评价诊断方法的细节,使其具备可重复性
【条目10b】充分描述参考标准的细节,使其具备可重复性
【解读】待评价试验和参考标准试验实施方法的差异可能是导致诊断准确性差异的潜在原因。因此,作者应当详细描述待评价试验和参考标准试验执行方法,以便其他研究者能够重复研究,且能够让读者评估待评价试验的可行性、适当性及结果对临床问题的适用性。描述内容应当包括完整的试验方案,如分析前阶段病人的准备工作(抽血前禁食、测量的解剖部位)、分析过程中的材料、仪器和分析程序的使用,以及分析后阶段利用相关参数计算风险分数。
进行待评价试验或参考标准试验的操作和判读人员的数量,以及他们接受培训的程度,也会影响诊断试验的准确性。许多研究表明,不同人员的判读结果存在较大差异,特别是在影像学领域。在研究中,提供判读者所接受培训程度的信息有助于读者判断在他们自己的研究环境下是否可以获得类似的结果。
在某些情况下,一项研究可能存在多个参考标准试验。如,在影像学检测评价中,具有病变的患者通过活检进行最终诊断,而没有病变的被测试者只能进行临床随访而作为参考标准试验。这种情况下可能导致潜在偏倚,因此作者应详细描述标准试验的信息,说明哪些患者接受了哪种参考标准试验。
【条目11】选择参考标准试验的原理(如果存在其他备选的参考标准试验)
【解读】在诊断准确性研究中,参考标准试验也称“金标准”,用于确定研究对象是否真的存在目标状态。当使用几种参考标准来定义相同的目标状态时,这时需要考虑待评价试验的意图以及临床实际或伦理因素。在这种情况下,作者应该详细说明如何从其他备选的参考标准试验选择参考标准试验的原因。备选参考标准试验的诊断性能并不一定相同。其中一些参考标准试验的准确性要低一些。此外,不同参考标准试验的不同性能反映了疾病的不同特征或不同阶段。例如,通过影像学确认疾病可能是第一个备选参考标准试验,而通过临床经验进行确认可能是第二个备选参考标准试验。
【条目12a】描述待评价诊断方法的最佳截断值或结果分类的定义和原理,区分截断值是否为预先设定的还是探索性的
【条目12b】描述参考标准的最佳截断值或结果分类的定义和原理,区分截断值是否为预先设定的还是探索性的
【解读】原始试验结果可以采用不同的表示方式,包括二分类(如阳性或阴性),多分类(如高、中或低风险),或连续性变量(一个区间或率)。对于多分类或连续性变量的结果,通常会进行重新归类,以便将其转换为二分类结果,即阳性(确诊病例)和阴性(非病例)。这主要是通过定义一个阈值来实现,即检测阳性临界值。超过阈值将被称为阳性检测结果,并通过计算所有可能临界值对应的敏感性和特异性对子,最终绘制ROC曲线。
为了评估这些分类的有效性和适用性,读者希望知道临界值和结果类别是如何界定的,以及界定的时间,是在研究之前还是数据收集之后。预先指定的阈值可以基于以前的研究、临床实践中使用的临界值、临床实践指南推荐的阈值或制造商推荐的阈值。如果没有预先确定的阈值,那么阈值通常是在数据收集后确定。在这种情况下,作者可能会选择一个有利于提高准确性的临界值,这很可能会过高估计诊断试验的性能,这使得其他研究可能难以重复试验结果。
【条目13a】待评价诊断方法的检测人员或读取结果人员是否知晓研究对象的临床资料和参考标准结果
【条目13b】参考标准的评估者是否知晓研究对象的临床资料和待评价诊断方法结果
【解读】有些医学诊断试验,如大多数影像学诊断,需要人工操作、解释和判断。这些行为很可能会受到判读者可获得信息的影响,从而导致检测项目之间或待评价试验与参照标准之间出现高度一致性,从而夸大诊断性能。如果试验结果的判读者可以获得有关体征、症状和以前检测结果的信息,则其可能会受到这些额外信息的影响,但这或许仍然可以代表检测结果在临床实践中的使用情况。相反,如果没有足够的信息来解释待评价试验的结果,那么诊断结果的适用性会受到限制。因此,读者应该了解额外信息对试验结果判读者的影响程度。在参考标准试验的评估人提前获取待评价试验结果的情况下,最终的诊断可能会以待评估试验结果为导向,从而导致待评价试验准确度性的过高估计。一些需要主观解释的指标,尤其容易受到影响。
“盲法”指的是对判读结果的人隐藏信息,该条目的重点不是解释盲法是否可取,而是在于读者需要了解关于待评价试验和参考标准试验设盲的信息,以便更好地解释研究结果。
(三) 统计方法
【条目14】用于评估诊断准确性的计算或比较方法
【解读】医学诊断试验的性能可以通过多种指标描述,作者应该根据研究特点来选择适当的评价指标进行报告。根据研究目的,统计学方法可以用于检验特定的假设。在单侧检验中,作者可能希望检验待评估试验的诊断准确性是否超过预先指定的水平。此外,诊断准确性研究还可用于比较两个或多种待评价试验的性能。在此类情况中,统计假设检验通常涉及评估一项试验优效或非劣效于另一项试验。在进行这些比较时,作者应说明他们在进行比较时所采用的评价指标,这些指标应与他们的研究目标相符合,并与临床作用相匹配。
【条目15】如何处理待评价诊断方法或参考标准的不确定结果
【解读】不确定结果是指既不是阳性也不是阴性的结果,其既可能出现在待评价试验中,也可能出现在参考标准试验中,是诊断试验性能评估时的一个难题。不确定检测结果的发生率因诊断试验而异,相关报道称其发生率高达40%。这些不确定结果可能由于多种潜在原因产生,例如技术方面的问题、样本量不足或者结果分类的模糊性。值得注意的是不确定结果的发生频率是评估待评价诊断方法可行性的重要指标之一,同时也可能限制其在临床中的应用。因此,在待评价诊断方法和参考标准方法中,作者都应当报告不确定结果出现的频率、原因及未能完成诊断程序的情况。如果忽略非随机出现的不确定结果,则会导致诊断方法准确度估计的偏差。因此,不确定结果的处理往往需要临床实践的指导。
实践中有多种方法可以处理准确度评估和诊断性能评估过程中出现的不确定结果,例如:当不确定结果发生频率比较高时,可将这些结果作为一个单独的类别处理。此外,还可以将其重新分类为某一极端结果后进行敏感性分析,如分为假阳性或假阴性(最坏情况),或分为真阳性和真阴性(最佳情况)。
【条目16】待评价诊断方法或参考标准中缺失数据的处理方法
【解读】缺失数据是生物医学研究中的常见现象。在诊断准确性研究中,待评价诊断方法和参考标准方法中都可能出现缺失数据。在分析数据时,有几种方法可以处理缺失数据。一种做法是排除未观察到检测结果的参与者,只对“完整案例”或“可用案例”进行分析。然而,这种做法可能会导致准确性下降,并可能带来偏倚,特别是当缺失的数据与目标条件相关时。如果对缺失数据进行填补,则可将缺失检测结果的受试者纳入分析。另一种方法是通过考虑不同的场景来评估缺失数据对准确性造成的影响。例如,在待评估的诊断试验中,将所有缺失的结果都认为“最坏情况”,此时所有缺失的结果均被视为假阳性或假阴性;也可将所有缺失的结果都认为“最佳情形”,此时所有缺失结果被认为是真阳性或真阴性。
【条目17】任何关于诊断准确性变异的分析,区分是否为预先设定的还是探索性的
【解读】诊断试验的假阳性或假阴性结果的相对比例可能会因患者特征、判读者的经验、试验环境和前期试验结果而不同。因此,研究人员可能希望在其研究中探索评估诊断准确性变异的潜在来源。在这类分析中,研究人员通常会评估研究对象、结果判读者或各个中心亚组之间的准确性差异。需要注意的是,事后分析是在收集数据之后进行的,极有可能得出虚假的结果。其结果很有可能不会被后续研究所证实。在收集数据之前预先规定的分析具有更高的可信度。
【条目18】预期样本量及其计算方式
【解读】在开展诊断准确性研究时,进行样本量计算可确保达到足够的精确度。样本量的计算还需要考虑研究的具体目标和假设。研究者需提供样本量计算的相关参数,如预期精度、统计效力、是否成功招募到预期的样本量等。这些信息有利于读者了解作者确定样本量的详细信息,从而评估计算的假设是否符合科学、临床背景和研究目标。研究过程中可通过增大样本量减少估算灵敏度和特异度时的不确定性,但样本量并非越大越好,过大的样本量会导致时间、资源的浪费,而过小的样本量则可能导致参数估计的不精确,置信区间过宽。
注:本文内容是参考相关文献后对STARD报告规范原文的解读,仅代表本网站观点。关于STARD声明的更多信息详见STARD官网(http://www.stard-statement.org/)或EQUATOR协作网(https://www.equator-network.org/reporting-guidelines/stard/)、(https://www.equator-network.org/reporting-guidelines/stard-abstracts/)进行查询,或Patrick M Bossuyt等发表的论文“STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies (https://pubmed.ncbi.nlm.nih.gov/26511519/)”、Jérémie F Cohen等发表的论文“STARD 2015 guidelines for reporting diagnostic accuracy studies: explanation and elaboration(https://pubmed.ncbi.nlm.nih.gov/28137831/)”、Jérémie F Cohen等发表的论文“STARD for Abstracts: essential items for reporting diagnostic accuracy studies in journal or conference abstracts (https://pubmed.ncbi.nlm.nih.gov/28819063/)”、朱一丹等发表的论文“诊断准确性研究报告规范(STARD) 2015介绍与解读(http://www.cjebm.com/article/10.7507/1672-2531.20160112)”。