如何挑选差异蛋白?t检验 or 方差分析?

2023-05-18 23:00:13

差异蛋白的挑选,对于刚接触蛋白质组学的人来说一直是一个关注度非常高的问题。经常见到有人问怎么挑选差异蛋白?Fold change是选择2还是1.5甚至1.3?有没有一个固定的标准?其实,蛋白质组学作为组学这种系统生物学的重要组成部分,属于大数据一类的方向,从海量的数据中筛选出真正有价值的数据,本身就不是百分之百准确的。比如如果蛋白的倍数变化以1.5为标准,那1.4999就不算了吗?更何况,受制于样品处理和质谱的性能,实验最后的得到的定量数据并不一定能反应真实的差异。所以,没有必要纠结上面所述的定量标准的问题。对于一般的组学研究,能够在统计学和生物学意义上自圆其说,给出一组有意义的数据就可以了。如果想做深入的研究,当然可以扩大、深化对组学数据的处理和筛选,并且还要加上广泛的后续验证性实验。本质上来说,和转录组一样,蛋白质组学还是一个以Discovery-Mode为核心的工具。

 

假设检验在筛选差异蛋白中的作用:

目前最常用的差异蛋白筛选办法是从基因芯片上面转移过来的“假设检验+倍数变化”方法。(其实绝大多数定量蛋白质组学领域的数据处理方法都起源于基于基因芯片的转录组研究,现在常用的Normalization方法也是起源于对基因芯片的荧光值数据的校准方法,而且基因芯片上的荧光强度与实际转录本的多少呈现非线性的关系的这一问题也存在于定量蛋白质组学的数据中,虽然质谱对蛋白的定量并不使用荧光标签,这一点我们以后再详细探讨),“假设检验+倍数变化”方法主要是在有三个生物学重复的对照型数据中,对每一个条目(蛋白或者肽段)的强度值同时进行假设检验和倍数变化的筛选,只有一个条目(蛋白或者肽段)同时在统计学上具有显著性差异(p<0.05)和在倍数变化上符合预先设定的阀值(1.5或者2)的时候,才认为是差异的蛋白或者肽段。这种方法简单明了、易于操作,并且能够画出漂亮的火山图来(一般用R语言绘制,一些软件也可以)。在数据分析分析和画图两方面都具有较好的有效性和便利性。


 图1. 图中的省略号代表经过相关软件计算出来的蛋白的强度值


t检验还是ANOVA?:

但是在进行假设检验的时候,究竟选择哪种检验方法呢?目前,常用的主要是T检验和ANOVA(方差分析)。T检验适合检验两组样本,一般使用双样本独立t检验。严格来说,使用t检验之前还要检验方差齐性和正态性(可以用SPSS完成),但是对于重复比较少的样本来说,这种严格的方差齐性和正态性检验没有太大意义。一般来说直接使用双样本独立t检验计算p值即可。ANOVA对于双样本和多样本都适用。对于多样本来说(一般指的是基于时间点的定量,比如EGF刺激HeLa细胞5min、15min、30min之类的连续定量实验),只适用于ANOVA。对于双样本(比如一个常规癌细胞和一个抗药性的癌细胞进行对比的定量实验)来说,则有两种选择:t检验和ANOVA,不过这两种方法本质上时等效的。不过需要注意的是,ANOVA分为单因素、多因素分析以及协方差分析,一般生物学实验只涉及一种变量,所以这时候选择t检验和单因素方差分析均可。但是当实验涉及到多个变量的时候,即便是只有两种样本互相对比,也只能用多因素方差分析。

总结来说:

1、两种样本比较:独立样本t检验 or 单因素ANOVA (只有一个实验变量)

2、多种样本比较:单因素ANOVA (只有一个实验变量)

 

p值校正:

经过上面的假设检验后,我们会得到一列p值。但是还没有完,因为对于一次实验来说,我们有数千个蛋白被定量到,每个蛋白都要进行一次假设检验。比如我们选择p<0.05作为具有显著性差异的蛋白的标准,那么这意味着我们有百分之五的概率犯错,也就是假阳性的问题。当我们对1000个蛋白挨个都进行一次检验后,会有50个蛋白是假阳性结果(无差异),但是我们并不知道具体是哪50个。如果我们有10000个蛋白,这个假阳性数字会上升为500。为了尽量减少这种误差,我们有必要进行p值的校正。p值的校正有多种方法,我们在进行蛋白搜库的时候见到的FDR控制就是一种利用Target Decoy策略进行的p值校正方法,设置还衍生了q值之类的新的概率及结果。这方面的知识说起来复杂,后续本公众号将会出一个关于“p值校正与FDR”的系列,详细讲解其过去现在和未来。此处我们可以简单的理解为尽可能减少上述所述的多次检验所造成的假阳性问题。目前进行p值校正最常用的时候BH方法,具体怎么使用见下文。

 

联合Fold Change筛选出最终的差异蛋白:

经过p值校正后,我们选取p<0.05的蛋白作为具有显著性差异的蛋白。与此同时,对原始数据,我们计算出每个蛋白的平均强度值,然后实验组除以对照组,得到一列ratio(比值)。我们选择同时具备p<0.05和Ratio>1.5(这个数字2也行,1.3也不是不可以,没有规定值)的蛋白作为最终的差异蛋白。

这里需要注意:有时候,数据的重复性是个问题,我们一般做至少三个重复(生物学重复或者技术重复),但是不一定重复性很好,所以在进行上述的筛选差异蛋白步骤之前,我们有必要进行数据重复性检验(皮尔森相关系数计算、主成分分析、箱线图四分位分析等,后续会有专门一篇文章讲解如何进行数据重复性检验)。如果数据总体重复性还可以的话,我们还需要关注单个蛋白的重复性,如果一个蛋白的强度值在多次重复试验间的CV(变异系数)>0.25的话,我们倾向于认为这个蛋白的数据重复性有问题,严格意义上来讲,应该将这个蛋白删掉。当然,如果为了发文章,也可以不拘小节,要是审稿人不在乎,你也不用在多走一步了,一切看具体情况而定。至于什么是变异系数?为什么不用标准差来考察数据是否平整而用变异系数?后续本公众号会有一篇文章来讲解这个问题。

   

    走到这一步,差异蛋白的筛选已经完成。下面,我们用Perseus这个软件来展示一下如何操作。

1. 登录http://coxdocs.org/doku.php?id=perseus:start这个网站,按照提示下载Perseus。

2. 将蛋白定量数据另存为为txt格式,打开Perseus,点击下面图中箭头所示图标,将蛋白或者肽段强度的列选中,然后减低main中的“>”按钮,同理,导入蛋白名称或者肽段序列等文本型列,最后点击OK:


                 


3. 进入到主界面,点击Filter Rows —— Filter rows based on valid values,在min.num中输入蛋白强度值列数(如果你是两种样本对比,各三次重复的话,那就是6),点击OK。

4. 点击Basic —— Transform ——OK

5. 点击Annot.Rows —— Categorical annotation rows,参考下图进行改动:将同一组样品的列名改为同一个名字。

                                                                                         




6. Test—— Two Sample Test。在这一步里,有一些参数需要更改,首先,在use for trunction里,在FDR上面的下拉框里,有三个选项,第一个是p value,也就是不进行p值校正,你可以这么做,如果你的蛋白比较少的话;第二个是Benjamini-Hochberg FDR,这个是比较严格的p值校正,也就是上面说的BH方法,如果你蛋白比较多,建议选这个。第三个是Permutation based FDR,这是另一种FDR方法,最后卡掉的蛋白没有BH法多,你可以选择这一种。点击OK。

7. 在中间那个像流程图一样的区域里,点击最下面的左侧的matrix,找到Student’s T-test significant 列,这一列里有很多“+”号,点击列名,会自动排序。这里所有带加号的蛋白或者肽段就是具有显著性差异的蛋白或者肽段。

8. 在软件左侧的表格上右键——plain matrix export,可以输出表表格。用Excel打开,计算实验组蛋白强度均值除以对照组蛋白强度均值,比如选择1.5作为标准,用excel排序筛选出小于1.5的行,复制到新的sheet中,然后对“+”那一列进行排序,再选出含有加号的。

9. 大功告成。


友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟