实用干货系列 | 关于GWAS显著性阈值设置的那些事儿
2022.03.10
GWAS(Genome-wide association study,即全基因组关联分析,是通过扫描基因组中数以百万计的SNP分子标记,进行基因型和表型间相关性分析,筛选出影响复杂性状的基因变异的一种策略,应用广泛,可以在全基因组水平上同时且广泛地挖掘与多个目标性状变异显著相关的多个基因。
作为一种经典的可视化方式,曼哈顿图使用广泛,在全基因组关联分析(GWAS)中随处可见。曼哈顿图展示了每个SNP位点的Pvalue(以下简称P值)信息,图中的水平横线对应筛选显著位点的P值阈值。在曼哈顿图绘制过程中,显著性阈值设置是候选位点筛选的重要一环,今天我们就来聊聊关于GWAS显著性阈值设置的那些事儿。





1.1.jpg

曼哈顿图是一种散点图,通常用于显示具有大量数据点、许多非零振幅和更高振幅值分布的数据。该图通常用于GWAS以显示重要的SNP。
X轴为染色体编号,且每个基因组SNP位点沿染色体序列排列。
Y轴为该位点相关的统计显著性P值,可以理解为每个SNP与表型的关联程度。P值越小越显著,为了在图中突显显著性位点,采用以10为底的负对数的方法进行P值转换,点越高表示位点与性状关联程度越强。
图中水平线一般为设定的显著性阈值,高于这条水平线的位点为与表型显著相关的位点。 




为什么要设置显著性阈值?


对于统计学假设检验来说,多重检验校正非常重要。在进行假设检验时,通常会设置一个零假设,之后计算出一个P值,即数据分布符合原假设的概率,P值越低,即代表拒绝原假设的概率越大。我们通常认为P值<0.05是一个判断是否显著的阈值。然而,在同时对多组数据进行处理和比较的时候,很可能其中部分数据因为随机效应而超过阈值,造成假阳性结果,检验的次数越多,出现假阳性的概率就越大,因此简单地使用0.05作为阈值可能就不那么合适了。对于GWAS对全基因组的位点进行统计学检验的分析,我们应用不同的方法对结果的阈值进行校正,以此获得校正后的显著性阈值,如Bonferroni校正法、置换检验法、控制错误发现率法等。
以下,作为严格的多重检验校正方法,我们以Bonferroni校正法为例进行介绍。


Bonferroni校正法校正原理?



在同一数据集上同时检验n个相互独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。如以显著水平0.05检验同一数据集上两个独立的假设,此时用于检验这两个假设应使用更严格的0.025;对于10000个基因的检验,若将P设置为1e-6,进行10000次比较之后犯错误的概率是10-6*10000 = 0.01,严格地控制了假阳性的出现。


如何确定显著性阈值?


在GWAS中,如果对每个位点进行测试,以0.05的水平进行筛选,由上可知,在1000000个位点中其假阳性的位点可能达到5%,即50000个,所以,为了控制假阳性的概率,以Bonferroni校正对阈值进行调整。Bonferroni校正会将设定的显著性水平除以测试次数,最终得到一个总的阈值。换句话说,它将阈值从a = 0.05调整为a =(0.05 / n),其中n是进行的统计检验的次数,即SNP的个数。


SNP位点过少/过高的因素及解决办法


绘制曼哈顿图时,我们经常会遇到阈值水平线过高导致显著性SNP位点过少,或水平线过低导致显著性SNP位点过高等情况,那么是什么因素导致这一情况的发生?我们可以通过哪些方法解决这个问题呢?

1. 由于GWAS标记之间的连锁不平衡,可能会存在多个标记或者SNP之间相互连锁的情况,所以假设GWAS数据集的每个关联测试都是独立的是不正确的。因此,应用Bonferroni校正通常会为我们提供保守的P值阈值。这往往会导致假阴性的产生,可能整个基因组中都很少有标记的关联P值能够达到这一标准。我们可以尝试应用不同的软件/程序进行计算,常用的有软件GEC[1],simpleM程序[2],可以降低0.05/n的严格性。

2. 在显著性阈值计算中,最终得到的阈值根据进入分析的SNP数量(n)不同会有一定的差异。换句话说,我们可以通过改变n的数量来适当的调整显著性阈值的大小。一是可以去掉性状异常值对应的样本;二是可以调整最小等位基因频率、位点缺失率、个体缺失率、哈迪-温伯格平衡等过滤参数。

3. 我们可以根据实际曼哈顿图的情况对阈值进行一些调整。例如2019年Genome Biology桃重测序中的GWAS部分[3],大多数性状采用的均是经过Bonferroni校正的约3e-8的阈值,但是对于果实大小性状的GWAS分析,研究者将阈值降到了1e-5,以消除由于Bonferroni校正过于严格导致的假阴性。
我们通过近年来的文章、软件原理等做出以上原理总结与解决方法的建议,若有更合理的解决方法欢迎指出哦~安诺优达提供动植物重测序服务,有丰富的个体、群体重测序经验,如各类物种的GWAS、群体进化等项目测序分析经验,欢迎有意向的各位老师咨询~



参考文献:
[1]Li M X, Yeung J M Y, Cherny S S, et al. Evaluating the effective numbers of independent ests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets[J]. Human genetics, 2012, 131(5): 747-756.
[2]Gao X, Starmer J, Martin ER. A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms[J]. Genet Epidemiol, 2008;32:361–9.
[3]Li Y, Cao K, Zhu G, et al. Genomic analyses of an extensive collection of wild and cultivated accessions provide new insights into peach breeding history[J]Genome Biology, 2019, 20(1): 36.