关键词:加强观察性流行病学研究报告质量; 观察性研究; 加强免疫基因组学研究的报告规范; STREIS; STREGA
一、方法
(一) 变量
【条目7】按照世界卫生组织命名委员会对HLA系统因子的命名规则描述HLA等位基因,并说明与数据相关的IMGT/HLA数据库版本号;按照IPD-KIR数据库描述KIR等位基因,并说明与数据相关的IPD-KIR数据库版本号
世界卫生组织HLA系统因子命名委员会制定了一种复杂多态性的命名法,其中包含了全部HLA等位基因。这种命名法将大量关于HLA多态性的信息纳入到一个等位基因名称中,其发展与过去二十年来HLA基因分型方法的范围和性能的改进相一致。
起初,与1987年,编码不同蛋白质的HLA等位基因是通过4位数字表示。前两位数字描述每个等位基因的血清学特异性,而后两位数字识别该特异性等位基因中的连续蛋白质变异。随后于1990年,HLA命名法经过更新,改为采用5位数字表示。新增的第5位数字用于代表同义核苷酸多态性。进一步在2002年,该命名法扩展为四对分别代表血清学、蛋白质、同义和非编码核苷酸多态性的数字。到了2010年,为了区分不同的多态性区域,命名规则中引入冒号,每个多态域可代表超过99个变异体。
自1999年其,每个HLA等位基因的序列定义和命名规则已整合至免疫遗传学(IMGT)/HLA数据库中。次数据库每三个月更新一次,反映了当前的HLA序列多样性和命名规则,并与一个特定的版本号相关联(例如,2011年7月的版本是版本3.5.0)。每个发布号都提供了明确的参考,用于描述一组特定HLA等位基因序列在特定命名规则下的命名。除非特别说明,以下讨论的HLA等位基因均包含在3.5.0版中。
随着命名规则的改进,部分等位基因的名称也随之改变。这些命名规则的变动意味着无法始终以一致方式应用于现有数据。即使是简单的等位基因名称更改(例如,从01011到010101),在应用到大型数据集时,命名的更新仍会耗费大量时间,而且每次更新都容易引入新的错误,而且不明显的更改(例如,将B*1522更改为B*3543)可能根本不被采用。因此,即使命名发生变化,旧命名版本的HLA数据可能会在分析、出版和传播中继续存在很长一段时间。由于IMGT/HLA数据库的版本号通常不会在报告中明确记录,当合并数据集或将新基因型添加到现有数据集中时,可能会纳入不兼容的HLA数据(例如,同时包括B*1522和B*3543等位基因的数据集),这将给分析带来严重困扰。
因此,按照WHO命名委员会对HLA系统因子的命名法描述HLA等位基因,并明确与数据相关的IMGT/HLA数据库版本号,是非常有必要的。与IMGT的HLA数据库类似,免疫多态性数据库(IPD)中的KIR数据库是一个关于KIR序列和命名信息的中央存储库,每个IPD-KIR数据库版本号提供了对一组根据特定的命名规则命名的特定KIR等位基因序列的明确参考。
(二) 数据来源/测量
【条目8】提供每个研究对象的原始、不清晰的基因型数据的路径;描述用于存储、管理、验证基因型和等位基因数据及分析准备数据的系统;使用客观指标评估每个基因的特征,避免使用会随时间改变的主观指标(如低、中、高或等位基因分辨率),以说明基因分型系统和分析结果;记录所有解决混合碱基的方法;定义用来代表混合碱基的代码;描述组合或合并等位基因为同一类的方法
HLA区域具有广泛和重复的基因复制、重组和基因转换事件的特点,这些事件导致了多态性序列结构的复杂“拼凑”。早在拷贝数变异(CNV)研究出现之前,MHC区域的结构变异就在HLA-DRB基因家族中观察到。HLA基因之间的高同源性和编码肽结合域(PBD)的外显子的广泛多态性为干细胞移植、群体和流行病学研究中单个HLA等位基因的鉴定提出了挑战。HLA等位基因是在某个HLA基因中一定数量(~50-100)的多态性氨基酸位点的变异。识别所有区分密切相关等位基因的多态性通常成本高昂,而且由于多态性结构的拼凑,有时无法区分具有相同杂合子多态性集合的基因型。因此,尽管每个体在每个位点只有两个HLA等位基因,但许多HLA基因分型结果可能是不明确的,因为对于给定样本的结果可能与给定位点上的两个以上的潜在等位基因一致。
目前,直接定序法(SBT)系统评估II类位点的外显子2序列,I类位点的2和3外显子序列代表了报告最小的基因型的金标准。在给定的IMGT/HLA数据库下,评估更少多态性的基因分型系统将产生具有更多包含混合碱基的HLA基因型数据,而评估额外外显子的SBT系统可能报告的混合碱基更少。
此外,随着分型方法的创新,将多态性扩展到给定基因的更多区域(外显子、内含子等),会增加产生混合碱基的可能性。在某个版本的IMGT/HLA数据库中明确的基因型在以后的更新版本中可能是不明确的,因为一些以前无法检测到的多态性。为了使研究人员能够确定新旧版本分型数据之间的等价性,了解以前未被评估的基因区域的新的多态性是很必要的。SBT评估I类外显子2和外显子3或II类外显子2序列的系统可以报告由多达14或15个个体基因型组成的模糊基因型。
当区分等位基因的多态性在基因分型系统评估的区域之外时,就会导致等位基因出现混合碱基。在某些情况下,混合碱基等位基因可能由大量可能的等位基因组成。基因型出现混合碱基是因为无法确定已识别的多态性间的染色体阶段。
含有混合碱基的基因型也可以用多种方式表现出来。在某些情况下,一个特定等位基因组中的所有等位基因都被组合成一个等位基因编码,因此所有的个体基因型都被“折叠”成只有两个等位基因编码。这种将模棱两可的基因型分解为一对等位基因编码的做法实际上增加了分型的模糊性,因为并不是所有在给定等位基因编码中隐含的基因型组合都可能出现在单一的分型结果中。
等位基因和基因型中混合碱基糊的存在导致“分型分辨率”这个术语的产生,用来描述基因分型方法和基因分型结果中的模糊程度。然而,尚未在描述分型解析时达成普遍公认的定义。Hurley等人讨论了低、中、高水平的替代等位基因的数量(即模糊的程度)和可以区分的等位基因名称字段的数量,并承认很难精确地定义这些术语。另外,2010年欧洲免疫遗传学联合会(EFI)外部熟练度测试提供者标准将高分辨率分型定义为至少评估I类位点的外显子2、外显子和3的差异以及II类位点的外显子2的差异。美国组织相容性和免疫遗传学学会(ASHI)组织相容性分型术语协调工作组最近制定了低、高和等位基因分辨率的分子分型结果的定义。该工作组将高分辨率输入结果定义为具有相同蛋白质结构PBD表达的一组等位基因,并符合特定HLA命名报告的等位基因输入结果。虽然EFI和ASHI对高分辨率的定义都与PBD多态性有关,但它们之间存在明显差异,EFI定义的高分辨率分型可能导致较少的混合碱基,而ASHI定义的高分辨率分型可能导致较多的混合碱基。
除了定义不明确和经常相互冲突外,随着新的等位基因的识别,这些分型分辨率术语可能会随着时间的推移而发生变化。来自其他外显子和内含子,以及上游和下游区域的序列合并到IMGT/HLA数据库中,以前被描述为“等位基因分辨率”的分型结果可能会在更新版本中被描述为“高分辨率”的分型,之后也可能变成“中分辨率”分型。不同的等位基因的数量只会随着目前未知的外显子序列的确定而增加。同样,关于等位基因表达或不表达程度的知识也可能发生变化。由于缺乏标准术语,导致免疫遗传学领域的研究人员和临床医生难以在不同分型方法之间进行数据合成和等效的HLA基因分型结果。这对其他研究人员来说也是一个显著的挑战。
大多数群体遗传和流行病学分析方法以及实施这些方法的工具都需要反映每个个体每个位点两个等位基因二倍体遗传状态的遗传数据。因此,在HLA基因型数据的情况下,必须“解决”等位基因和基因型模糊的问题,以便进行二倍体等位基因分配。目前没有制定这些等位基因的标准,它们都是基于个人调查员对研究中数据的积累和经验知识。这些知识通常来自于不同种群的等位基因频率分布,等位基因间的连锁不平衡(LD)模式(导致单倍型),以及个体等位基因和单体型的分类。
然而,在没有统一的方式应用这些知识的情况下,不同研究人员可能会对相同的数据做出不同的等位基因分配。此外,缺乏免疫遗传学数据的报告标准意味着HLA文献通常不包括对用于混合碱基解决的方法的参考,甚至不包括对这些方法在特定研究中的应用参考。虽然该领域的大多数研究人员都意识到,在发布一个“干净”(完全二倍体和无混合碱基)数据集之前,有必要解决混合碱基问题,但实际应用的确切方法仍然是个谜。
此外,随着分型方法的改进,等位基因的分类可能会随着类型的改进而改变。随着现代HLA基因型系统在每个基因中可评估的外显子数量的增加,在已知和最近鉴定的等位基因的感知频率中,这种反转似乎将变得更加普遍,这可能需要重新评估之前发表的数据,甚至可能重新评估等位基因。
不同类型系统检测和区分密切相关等位基因的能力似乎总是有差异的。由于缺乏报告标准,各个研究人员可能会继续应用用于做出任何必要的等位基因分配和报告基因型数据的方法,这可能导致在不同实验室和不同时期对于给定样本的报告基因型存在差异。HLA基因分型数据的生成和管理方式的细节和披露不一致,这损害了研究人员确定HLA数据在多项研究中是否一致,是否产生有意义的发现的能力。这种不一致也极大地降低了去重现这些研究和汇集数据资源的能力。
(三) 统计学方法
【条目12】讨论任何为了满足分析要求而对数据所做的修改;记录免疫基因组数据分析时的注意事项
现代免疫基因组学数据的特点是在具有相对高连锁不平衡的大量功能相关位点中具有高水平的多态性。因此,现代免疫基因组学研究者面临的困境是,现代基因组分析方法和历史上使用的遗传方法都不适合分析其数据。
对于免疫基因组学研究人员来说,数据分析方法一致性的主要障碍是在进行分析时缺乏实施数据处理的记录文件。关于数据异质性、低频率等位基因、单倍型估计、连锁不平衡、关联研究、HW检验、进化分析等都有需要注意的点。在本节中,我们简要概述了免疫基因组学数据分析中在这些方面存在的一些挑战。
1. 数据处理的异质性
在任何研究中,被分析的主要数据都被认为是有效和可靠的。然而,除了上面详细介绍的数据模糊性和命名的具体问题外,还存在很多发生错误的情况。比如HLA等位基因名称的复杂结构将这些数据呈现为特定类型的错误;手动数据输入和等位基因名称的修改可能导致转录错误;常用的电子表格应用程序通常会引入各种错误,因为它们不是为HLA数据管理而设计的。在进行任何数据分析之前,必须应用内部质量控制(QC)措施来确保主数据的完整性。
2. 低频率等位基因
低频等位基因(通常频率小于1%至2%,取决于数据集的大小)是典型的高度多态性免疫基因组学数据特征。如果不能正确地考虑低频等位基因,可能会导致可疑或毫无意义的结果。在进行明确的分布假设检验时,低频等位基因和基因型会影响检验统计的渐近近似有效性。虽然低频等位基因的影响对于分析单个SNP或其他具有低水平多态性的位点可能没有问题,因为在分析中引入了对小等位基因频率的限制,但在处理多态性位点时,必须特别关注这个问题。
3. 单倍型估计
单倍型和单倍型的频率估计在大部分遗传学研究中起到非常重要的作用。单倍型分析对于研究人类疾病的病因、对人类起作用的选择性力量以及骨髓供体登记的最佳大小(BMDR)十分重要。在使用估计单倍型频率(HFs)进行的多位点标记分析时,可以单位点不明显的标记和疾病位点之间的关联。然而,免疫基因组学数据的多样性和复杂性对单倍型估计提出了挑战。特别是在考虑KIR和HLA等位基因时,等位基因的频率,数据集的样本量,缺失信息的不同水平和连锁不平衡(LD)的不同水平影响了估计的准确性。此外,这些位点的高水平等位基因多样性可能导致估计到比实际表型数目更多的单倍型单倍型参数。
4. 连锁不平衡
在1MB KIR和3.6 MB MHC区域的位点之间记录了广泛的连锁不平衡现象。该连锁不平衡要求对多达14个高度多态性位点之间的关联度量进行成对计算。连锁不平衡是相邻等位基因座上等位基因的非随机性相关性。标准的成对连锁不平衡测量有多等位基因的扩展,但这些测量可能因为隐含的对称假设而无法发现重要的关联信息。同样,总连锁不平衡的另一个常用测量方法,即D’,对罕见等位基因具有高度敏感性,这在免疫基因组学位点中是一个主要特征。因此,探索各种连锁不平衡度量的结果很重要,而不是对有大量非对称等位基因的位点的特定连锁不平衡测量过分解释。
5. 关联研究
免疫基因组学数据的特点在疾病关联研究中需要仔细考虑,低频等位基因在疾病研究中使用卡方检验比较病例组和对照组的传统关联分析中具有挑战性。虽然卡方检验已成为整体位点水平检验的标准方法,但当预期基因型在列联表中的计数较小时,该检验可导致错误接受或拒绝零假设。在这种情况下,通常会对低频等位基因进行合并分类,以克服这个问题。
在免疫基因学数据的关联研究中,还需要特别关注潜在的人群分层问题。因为自然选择和人口学决定了特定种族和地域内的等位基因频率分布。如果收集样本时没有注意家系背景的同质性,研究人员就会面临对病例和对照的遗传差异错误解释的风险。在这些情况下,由于与人群分层相关的等位基因频率分布差异,可能被误认为与一个特定的位点有关联。全基因组标记有助于检测这些分层问题。
6. Hardy-Weinberg检验
Hardy-Weinberg(HW)原理为基因型数据完整性的初级QC验证提供了一个有用的模型,因为基因型错误可能导致个体基因型偏差和与哈迪-温伯格平衡定律(HWE)的总体偏差。因此,HW检验准确性的置信度对后续分析的置信度至关重要,因为许多分析方法都是根据数据集中HW平衡的假设来预测的。在高度多态的数据集中,HW测试尤其具有挑战性。与关联研究类似,卡方检验已成为HWEP的检验标准。然而,虽然观察到的基因型的最小数量必须是1,但HWEP下预期基因型的最小数量可以远小于1,这可能导致明显偏离HWEP。可以采取三种方法来提高检验的准确率:(1)低频等位基因可以合并为一类进行卡方检验;(2)可以采用精确检验发,即通过表格完整枚举,与观察到的等位基因频率一致的所有可能基因型;(3)通过重采样可以近似地进行这种完整的枚举。
7. 进化分析
等位基因和单倍型频率产生的系统发生树(或树图) 在研究种群关系以及与人类历史和迁移相关的假设检验方面具有应用价值。但用于这些分析的应用程序通常无法分辨出等位基因之间序列差异的程度,这导致血缘相关和不相关的等位基因都以同样的方式进行评估。源于序列的等位基因亲疏关系分析在大部分以频率为基础的进化分析被忽略。对于血缘相关的低频等位基因,可以采用低于外显子水平的等位基因名称合并方法,但这种方法对于更常见的等位基因并不恰当。
二、讨论
【条目19】讨论为了分析而修改数据可能带来的影响;讨论免疫基因组数据分析时的注意事项;讨论模混合碱基解决措施对结果的潜在影响
为了进行分析可能会对数据进行调整,需要在局限性分析中对这种修改带来的影响进行讨论。这些调整包括数据管理系统的选择,基因分析系统的选择,定义和解决混合碱基的方法以及各种数据清理和数据合并等对结果产生的潜在影响及各种注意事项。
注:本文内容是参考相关文献后对STREIS声明原文的解读,仅代表本网站观点。关于STREIS声明的更多信息可以登录IDAWG的官方网站(www.immunogenomics.org)进行查询,或阅读J A Hollenbach等发表的文章“A community standard for immunogenomic data reporting and analysis: proposal for a STrengthening the REporting of Immunogenomic Studies statement (https://pubmed.ncbi.nlm.nih.gov/21988720/)”。