关键词:加强观察性流行病学研究报告质量; 遗传关联性研究; 观察性研究; 报告规范; STROBE; STREGA
一、题目与摘要
(一) 题目
【条目1a】题目或摘要中要有常用专业术语表述研究设计
(二) 摘要
【条目1b】摘要内容要丰富,并且能准确地表述研究中做了什么、发现了什么
二、前言
(一) 背景/原理
【条目2】对所报告的研究背景和原理进行解释
(二) 研究目的
【条目3】阐明研究目标,包括任何预先确定的假设,说明该研究是首次报告某个遗传关联研究,或是重复研究或者两者兼有
【解读】在现代研究报告中,在一份报告中展现和综合来自几项研究的数据的文章正变得越来越多。尤其是在全基因组关联分析中,往往涉及多个研究群体,其采用不同的研究设计、基因分型平台以及在不同阶段进行的新发现或重复验证。当来自几项研究的数据呈现在一份原始报告中时,每个研究组成和综合的结果都应该充分描述。例如,在讨论样本大小的原因时,应明确区分初始组(使用全套SNPs进行分型的组别)和仅包括在重复阶段的组别(使用较少 SNPs 进行分型的组别)。详细描述这些方法和结果可能需要较大篇幅,在发表时,可以考虑将这些信息作为附件放置,以便读者在线上查阅。
三、方法
(一) 研究设计
【条目4】在论文中尽早陈述研究设计的要素
(二) 研究现场
【条目5】描述研究现场、具体场所和相关时间范围(包括研究对象征集、暴露、随访和数据收集时间)
(三) 研究对象
【条目6a】队列研究——描述研究对象合格标准、研究对象选择的来源和方法、随访方法;病例对照研究——描述研究对象合格标准,确定病例和选择对照的来源与方法,选择病例和对照的原理;横断面研究——描述研究对象合格标准、研究对象选择的来源和方法。研究对象来自一个大型研究的一部分时,说明选择参与者的标准和方法。
【解读】选择偏倚可能发生的情况有:①在某个研究中的一个或多个亚组中进行的遗传关联分析;②应答率在比较的各组间不同;③基因型检出率在比较的各组间不同。应明确报告纳入和排除标准、选择子样本的来源和方法,并说明这些标准是基于先验考虑还是事后考虑。关于研究对象的更多内容详见加强流行病学中观察性研究报告质量(Strengthening the Reporting of Observational Studies in Epidemiology,STROBE)声明(队列研究)——解读(上)【条目6a】。
(四) 研究变量
【条目7a】明确定义结局、暴露、预测因子、潜在的混杂因子和效应修饰因子。如果可能,给出诊断标准
【条目7b】需用公认的命名法明确定义遗传暴露(遗传变异),确定与人群分层(种族混杂)有关的变量
【解读】如果没有明确判断原则,评估研究结果是否进行了选择性报告将变得困难。大量来自随机对照试验的有力证据表明,报告的试验结果通常是不完整的,且总是偏向于具有统计学意义的发现。这种情况在药物遗传学中同样存在。因此,在选择特定基因和变异时的科学背景和基本原理应该进行报告。对于全基因组关联研究(genome-wideassociation study, GWAS),应详细阐述使用了哪些初始测试平台,以及如何选择基因变异用于进一步测试。这可能涉及统计学上的考虑(例如,对P值阈值的选择),功能或其他生物学上的考虑以及如何精细定位选择,或其他需要特别说明的方法。
为确保标准和统一的命名,人类基因命名指南由人类基因命名委员会发布。核苷酸序列变异的标准参考编号由国家生物技术信息中心遗传变异数据库(dbSNP)提供,该数据库主要但不仅是针对SNPs。对于dbSNP中未列出的变异,可以通过特定版本进行描述的变异,已经提议进行相关命名指南的制定。
(五) 数据来源/测量
【条目8a】对每个变量,描述其数据来源和详细的判定(测量)方法。如果有多组,还应描述各组之间判定方法的可比性
【条目8b】基因分型错误(暴露错分)。描述实验方法,包括DNA的来源与保存方法,基因分型方法和平台(包括等位基因判定算法和版本),错误率和检出率。说明基因分型实验室/中心的名称。如果是多中心实验室,说明不同实验室方法的可比性。说明基因型分配使用的是所有同步研究的数据还是其中一小部分的数据
【解读】暴露与疾病之间的关联程度可能会受到非差异性基因分型错误的影响,从而导致原本有关联的结果往无关联的方向偏倚。此外,还可能会受到基因型检测的系统偏差的影响,导致关联被高估或者低估。
导致基因型被错分的可能因素包括样本的类型和质量、收集的时间以及基因分型的方法。如果研究中涉及到高通量平台的使用,不仅要报告所使用的平台,还要报告等位基因判定算法及其版本。由于方法学的快速更新和不同判定算法的不同优缺点,报告等位基因判定算法及其版本将有助于读者理解和重复所报告的结果。对于病例对照研究,应该阐明基因分型的时机,是否为盲态(分组信息未知)下进行,以及做出这一决定的原因。
(六) 偏倚
【条目9a】描述减少潜在偏倚的过程
【条目9b】对于定量的结局变量,特别说明是否对药物治疗所导致的潜在偏倚进行调查。必要时描述潜在偏倚的性质、大小并说明使用了何种控制方法
【解读】如果存在一个会影响到处理因素效果的变量,那么研究结果就可能会有所偏倚。比如开展一项降脂药物效果的研究,如果入组时部分研究对象正在使用降脂药物,但分析时没有进行合理的校正,那么分析结果就会受到影响,导致发生偏倚或研究效力降低。Adjusting for treatment effects in studies of quantitative traits: antihypertensive therapy and systolic blood pressure(https://pubmed.ncbi.nlm.nih.gov/16152135/ )一文中介绍了几种相关的校正分析方法。由于处理治疗效果的方法可能对研究的把握度和对结果的解释都有重要影响,因此需要明确说明所选的分析方法。
(七) 样本大小
【条目10】解释样本量的确定方法
(八) 定量变量
【条目11】解释分析中如何处理定量变量。如果可能,描述怎样选择分组及分组原因。如果可能,描述怎样处理治疗效果
(九) 统计学方法
【条目12a】)描述所有统计方法,包括控制混杂的方法,说明使用的软件版本和选择的选项(或设置)
【解读】统计分析方法应当是明确和可重复的,由于遗传学关联研究中用到的统计软件比较特殊,所以需要说明使用的软件版本和相关设置。详见加强流行病学中观察性研究报告质量(Strengthening the Reporting of Observational Studies in Epidemiology,STROBE)声明(队列研究)——解读(中)【条目12a】。
【条目12b】描述亚组和交互作用检查方法
【条目12c】描述缺失值的处理方法
【条目12d】队列研究——如果可能,解释失访的处理方法;病例对照研究——如果可能,解释病例和对照的匹配方法;横断面研究——如果可能,描述根据抽样策略确定的统计方法。
【条目12e】描述敏感性分析
【条目12f】说明是否考虑了Hardy-Weinberg (哈迪温伯格)平衡以及是如何分析的
【解读】偏离Hardy-Weinberg平衡表明数据中可能存在误差或特殊情况。在既往遗传关联分析的论文中,有20%-69%描述了Hardy-Weinberg平衡检验的结果。但其中一些研究还存在一些评估方法错误或有局限性的情况。因为进行遗传学关联分析的任何程序都是可以在Hardy-Weinberg不平衡的情况下进行的,所以需要对所有统计描述和统计检验方法都进行描述。
【条目12g】描述所有用于推测基因型或者单体型的方法
【解读】单体型是邻近基因中特定等位基因的组合,在减数分裂时往往是整体遗传。在候选基因研究设计中,单体型分析是一种比较常见的方法。在一组样本内观察到的单体型的数量远比理论推断得到的单体型数量要小得多。单体型分析具有其优势,它能根据位点间的连锁不平衡关系,在所研究基因序列范围内构建理论上可能存在的单体型,并选择“标签SNPs(Tagging SNPs)”进行基因分型,从而让有限的基因分型覆盖到更广的基因序列变异信息。可以通过国际单体型图谱网站(HapMap,www.hammap.org)进行已知区域基因序列“标签SNPs”选择来进行分析。
在推断一组样本中单体型的种类视,可以使用多种方法。。在不同窗口(windows)进行单体型推断时,不同的窗口定义可能会导致不同研究的结果之间无法比较。比如通过Affymetrix 500K和10K获得的基因型数据和通过HapMap基因型数据进行的单体型结果会存在较大差异。因此,在方法学部分需要对这些内容进行详细的说明。在遗传学研究中,进行个别遗传信息缺失的家庭成员的基因型推断也常采用单体型构建。
【条目12h】描述所有用于评价或者阐释人群分层的方法
【解读】混杂是指在遗传学关联分析中,不同研究组间在等位基因(或基因型)频率或疾病风险方面分布不均衡的情况。在报告遗传学关联分析的结果时,如果涉及到不同人群对结果的影响,应该具体描述人群分层的分析方法。如果没有进行相关分析,需要明确说明未适用任何方法,这对于方法学研究证据的积累非常重要,因为不同的人群分层可能和遗传比较或者其他变量之间存在一定关联。如果是采用病例家庭成员设计,则需提供详细信息。目前对人群分层进行调整的方法有多种,所以有必要明确记录应用的是哪一种。
【条目12i】描述所有用于阐释多重比较或者控制假阳性结果的方法
【解读】假阳性存在几种情况,比如研究本身有一定的假阳性率,或者由于选择性报告只呈现全部研究结果中的阳性部分。在GWAS研究中,I型错误经常被扩大。如果研究成千上万的序列变异,那么数千个阳性发现完全有可能都是由误差引起的。
【条目12j】描述所有用于阐释和调整研究对象间关联性的方法
【解读】基于家系的研究中,使用的分析方法不同于基于不相关个体的研究中使用的分析方法。此外,即使在基于明显不相关的个体中的研究,某些个体之间也还是可能有某种关联,比如可能是远房亲戚,这在小范围的孤立群体中尤其常见,例如冰岛。这可能需要采用适当的方法来调整研究对象之间的非独立性。对于绝大多数样本是从大型的、非孤立的人群中抽取的研究,亲缘关系通常可以忽略不计,结果不会由于是否考虑了亲缘关系而改变。如果在研究分析中考虑了研究对象的非独立性,就应该在方法部分具体说明是采用了哪种校正方法。
四、结果
(一) 研究对象
【条目13a】报告研究的各个阶段研究对象的数量,如可能合格的数量、被检验是否合格的数量、证实合格的数量、纳入研究的数量、完成随访的数量和分析的数量。报告尝试进行基因分型的个体数量和成功进行基因分型的个体数量
【解读】详见【条目6a】和【条目8b】
【条目13b】描述各个阶段研究对象退出的原因
【条目13c】考虑使用流程图
(二) 描述性资料
【条目14a】描述研究对象的特征(如人口学、临床和社考虑按基因型提供信息会特征)以及关于暴露和潜在混杂因子的信息。可考虑按基因型提供信息。
【解读】多项同类研究结果的综合依赖于对研究数据详细和充分的描述。各研究结果的综合取决于是否有足够详细的数据。详见加强流行病学中观察性研究报告质量(Strengthening the Reporting of Observational Studies in Epidemiology,STROBE)声明(队列研究)——解读(中)【条目14a】。
【条目14b】指出每个变量存在缺失值的研究对象数目
【条目14c】队列研究——总结随访时间(如平均时间、总和时间)
(三) 结局资料
【条目15】队列研究——报告每个基因型组在一定时间内的结局事件(表型);病例对照研究——报告每组基因型的数量;横断面研究——报告每个基因型组的结局事件(表型)
【解读】在关注暴露与结局之间的关联之前,作者需要报告相关的描述性资料。报告随时间变化的每个基因型类别的结果(表型)。详见加强流行病学中观察性研究报告质量(Strengthening the Reporting of Observational Studies in Epidemiology,STROBE)声明(队列研究)——解读(中)【条目15】。
(四) 主要结果
【条目16a】给出未校正的和校正混杂因子的关联强度估计值、精确度(如95% CI)。阐明根据哪些混杂因子进行调整以及选择这些因子的原因
【条目16b】当对连续性变量分组时报告分组界值
【条目16c】如果有关联,可将有意义时期内的相对危险度转换成绝对危险度
【条目16d】报告多重比较调整后的结果
【解读】详见条目12i。
(五) 其他分析
【条目17a】报告进行的其他分析,如亚组和交互作用分析、敏感性分析
【条目17b】如果检测到数量较多的暴露(遗传变异),综合所有分析的结果
【解读】详见条目12i。
【条目17c】如果在其他地方有更详细的结果,说明获取的途径
【解读】GWAS研究往往会收集大量遗传变异的信息,如果在研究开始前就把全部数据库信息在网络中公开,可有效避免选择性报告的发生。而且这还能让对该研究感兴趣的其他研究者进行重复分析或者做进一步的分析。但这种信息公开也存在明显的缺点,对原始研究的背景信息掌握不完全,会导致数据的错误使用。如果研究者们在最开始就能把所有研究相关的各方面信息和资料都公开,能在很大程度上避免这个问题,但这一点也很难做到。这也是现在利用公开数据库进行相关研究尚待完善和解决的问题。
五、讨论
(一) 重要结果
【条目18】概括与研究假设有关的重要结果
(二) 局限性
【条目19】结合潜在偏移和不精确的来源,讨论研究的局限性。讨论潜在偏移的方向和大小
(三) 解释
【条目20】结合研究目的、局限性、多重比较、类似研究的结果和其他相关证据,谨慎给出一个总体的结果解释
(四) 可推广性
【条目21】讨论研究结果的可推广性(外部真实性)
- 其他信息
【条目22】给出当前研究的资助来源和资助者。如果可能,给出原始研究的资助情况
注:本文内容是参考相关文献后对STREGA报告规范原文的解读,仅代表本网站观点。关于STREGA声明的更多内容详见官方网站(http://www.strobe-statement.org)或Valentina·Gallo等发表的论文“STrengthening the REporting of Genetic Association Studies (STREGA): an extension of the STROBE statement (https://pubmed.ncbi.nlm.nih.gov/22039356/)”。