SCI编审向你要差异蛋白的严格筛选标准哩

2023-05-10 14:56:27

中科新生命,成立于2004年,专注于质谱技术方法在科技服务、生物医药、精准医疗领域的应用开发。12年质谱服务经验,每年处理本数超万例,,致力成为您最具价值的生物技术合作伙伴。


每日关键点:差异蛋白筛选,多重检验校正,FDR


差异蛋白的筛选时,一般会选取fold change值和p-value值。


1.  Foldchange


Foldchange在字面上就很容易理解。就是两个样品中同一个蛋白的表达差异的倍数,主要由定量值进行计算的。但判断一个基因是否有差异,不单单是通过差异倍数来判断,而是结合其他统计学参数(如p-value)来判断。

iTRAQ一般选择差异倍数绝对值>1.2

label-free一般选择差异倍数绝对值>2

当然这种倍数不是绝对的,根据实际情况可以提到或降低倍数值要求。


2.  P-value


通过T检验等统计学方法对每个蛋白进行P值的计算。

T检验是差异蛋白表达检测中常用的统计学方法,通过合并样本间可变的数据,来评价某一个蛋白在两个样本中是否有差异表达。但是由于通常样本量较少,从而对总体方差的估计不很准确,所以T检验的检验效能会降低,并且如果多次使用T检验会显著增加假阳性的次数。

蛋白质组学中的p-value值一般设置成<0.05。

 

但我们的编审大人们往往对我们要求更加严格,一般会要求“Thep-value should be adjusted in multiple comparisons….”——多重验证!!


                  肿么办?!


当接到编审的回复时,我的心情是这样子的↓↓↓


别怕,今天我们的大G男神就交给你震惊江湖的至尊法宝----why & how

 Why? 

首先为什么要进行更加严格的蛋白筛选标准?以例说明,我知道统计学说明有点枯燥,但也请假装能看得下去,谁叫我们的大G男神是纯正的技术男子呢(写得那么卖力那么拼)。。。

例如当某个蛋白的p值小于0.05(5%)时,我们通常认为这个蛋白在两个样本中的表达是有差异的。但是仍旧有5%的概率,这个蛋白并不是差异蛋白。那么我们就错误地否认了原假设(在两个样本中没有差异表达),导致了假阳性的产生(犯错的概率为5%)。


如果检验一次,犯错的概率是5%;检测10000次,犯错的次数就是500次,即额外多出了500次差异的结论(即使实际没有差异)。特别是当筛选出的差异蛋白数目过多时,这样的结果肯定会导致过多的假阳性产生,并且增加了后续实验验证的工作量以及准确性。


因此我们需要对p值进行多重检验校正,提高阈值,减少假阳性率。


不知道你们懂了没,没读懂没关系,本小编(我不是大G小编,我不是大G小编,我不是大G男神)已经为你们标出了重点,看懂重点就行。

 HOW? 

接着如何对差异蛋白进行多重检验校正呢?只要记住方法就行,其余交给我们的大G男神吧!


第一种方法Bonferroni,最简单严厉的方法。

例如,如果检验1000次,我们就将阈值设定为5% / 1000 = 0.00005;即使检验1000次,犯错误的概率还是保持在N×1000 = 5%。最终使得预期犯错误的次数不到1次,抹杀了一切假阳性的概率。

但是该方法虽用起来简单,但是检验过于严格,导致最后找不到显著表达的蛋白(假阴性)。

我的差异蛋白去哪里了?


第二种方法FDR(False Discovery Rate)

FDR(假阳性率)错误控制法是Benjamini于1995年提出的一种方法,基本原理是通过控制FDR值来决定P值的值域。


相对Bonferroni来说,FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡,将假/真阳性比例控制到一定范围之内。例如,如果检验1000次,我们设定的阈值为0.05(5%),那么无论我们得到多少个差异蛋白,这些差异蛋白出现假阳性的概率保持在5%之内,这就叫FDR<5%。


但补充一点,从FDR的定义和意义可知,其是衡量某个蛋白假阳性的概率。虽然从统计角度来说,如果FDR值越低,那么该候选蛋白出现假阳性的概率就越低,可验证性就越高。

换句话说,FRD是从概率的角度对差异的结果进行了一个整体的可验证性的判断。因此当差异很大(差异蛋白数目很多)时,我们可以适当地降低FDR的过滤阈值(也就是使用更加严格的筛选标准),而在差异较少时,我们完全可以适当增加FDR的过滤阈值,比如FDR=0.1,就是说这个蛋白10%的可能性出现假阳性,即它的可验证性的概率(90%)仍然远远大于不可验证性(10%)。


下面来一段对于小编来说是天书的内容,各位看管要坐稳了!



那么我们怎么从pvalue 来估算FDR呢,人们设计了几种不同的估算模型。其中使用最多的是Benjamini and Hochberg方法,简称BH法。虽然这个估算公式并不够完美,但是也能解决大部分的问题,主要还是简单好用!


FDR的计算方法除了可以使用excel的BH计算方法外,对于较大的数据,我们推荐使用R命令p.adjust。



我们还可以从R命令p.adjust的源代码,了解其运行的机制是什么。

看不懂没事,其实该函数表达的意思是这样的:

第一.我们将一系列p值、校正方法(BH)以及所有p值的个数(length(p))输入到p.adjust函数中。


第二.将一系列的p值按照从大到小排序,然后利用下述公式计算每个p值所对应的FDR值。


公式:p * (n/i), p是这一次检验的p value,n是检验的次数,i是排序后的位置ID(如最大的P值的i值肯定为n,第二大则是n-1,依次至最小为1)。

第三.将计算出来的FDR值赋予给排序后的p值,如果某一个p值所对应的FDR值大于前一位p值(排序的前一位)所对应的FDR值,则放弃公式计算出来的FDR值,选用与它前一位相同的值。因此会产生连续相同FDR值的现象;反之则保留计算的FDR值。


第四.将FDR值按照最初始的p值的顺序进行重新排序,返回结果。


最后我们就可以使用校正后的P值,即FDR值,进行后续的分析了。


希望你们能看懂,不要辜负我们大G男神的一片深情,实在看不懂没关系,来找我们的男神吧,他会帮您解决一切烦恼的!!


好了,今天的科普就到这儿了,各位有不懂的地方欢迎提问,我会假装看不到的hiahiahia^_^

APT“夏季培训班--SCI文献中的代谢组学技术应用”正在火热招生中,观光链接:中科新生命夏季培训班第二轮通知


中科新生命 · 质谱系统解决方案领航者

生物医药结构确证

蛋白质组 - 修饰蛋白质组 - 代谢组 - 脂质组

技术支持

公众号 · 行业动态

www.aptbiotech.com     T: 021-54665263    E: info_apt@sibs.ac.cn     Q: 1875681852

友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟