蛋白质组学系列五:蛋白搜库原理与技巧

2023-05-10 14:56:27

点击上方蓝字关注“诺禾蛋白”

导言

前几期小编与大家一起学习了蛋白质组学从样本制备、提取酶解、色谱分离到质谱上机的过程。

蛋白质组学研究,样本准备知多少?

蛋白质组学系列二:蛋白提取与质控

蛋白质组学系列三:蛋白酶解与色谱分离

蛋白质组学系列四:质谱的原理与应用

本期的分享内容是蛋白质组学十分重要的一环——蛋白质搜库。


什么是蛋白质搜库

样本经过质谱仪检测,会产生一系列的蛋白谱图。那如何对这些谱图进行解读,进而得知蛋白质的定性与定量信息呢?这里面就需要对这些谱图进行搜库,用搜索软件对质谱图进行自动化的分析,得到肽段及蛋白的序列信息。因而,搜库就是从谱图到肽段,再到蛋白质的过程


蛋白质搜库原理

蛋白搜库原理其实很简单,就是通过实验质谱图(下图左)与理论质谱图(下图右)进行比对,根据比对得分,挑选分值最高的一个或者几个肽段,进而对实验质谱图进行鉴定


SEQUEST和Mascot技术是蛋白质鉴定领域两种最为广泛接受的搜库技术

  • SEQUEST是根据母离子碎片和理论肽段碎片的匹配程度对每一个鉴定肽段打分,通过阈值过滤获得某一可信度的结果。

  • Mascot主要是基于概率的计算,按正确匹配和错误匹配的概率分布来评价肽段鉴定的可信度。


与Q Exactive HF-X配套的蛋白搜库软件为Proteome Discoverer2.2(PD2.2)同时兼容了这两种搜库技术,二者整合可为用户提供更可靠的鉴定结果,两种技术的搜索信息互为补充、交叉验证,PD2.2搜库模板默认使用的是SEQUEST搜索引擎,下面主要讨论SEQUEST搜库方法。


SEQUEST搜库技巧

SEQUEST先根据特异性酶对数据库蛋白序列做一次虚拟酶切,获得酶解肽段,计算其分子量,找到所有与实验质谱母离子(MS)分子量相近的多肽;将实验二级谱图(MS/MS)与可能肽段的理论碎片谱图进行打分,并输出最高分值的多肽作为一个PSM(Peptide-Spectrum Match)。需要强调的是,只有通过二级谱图才能获得多肽序列,进而进行蛋白定性。


SEQUEST软件搜库需要明确以下几点:

  • 蛋白序列数据库:文件格式通常是FASTA格式,最常用的数据库是uniprot,也可以通过转录组数据预测蛋白序列;

  • 特异性酶解:明确酶解使用的哪种蛋白酶,最常用的是胰蛋白酶(在K或R后面进行酶切)。若不限制酶切位点,软件会把所有可能酶切位点都切一遍,这样会产生非常多的多肽,运行时间会很长,而且错误匹配概率也会大大增加;

  • 质量偏差(Tolerances):需设定母离子和碎片离子搜索时的质量偏差容忍范围。质量偏差受质量分析器分辨率影响,会影响鉴定结果及鉴定准确性。一般HCD碎裂并以Orbitrap采集时,母离子质量偏差容忍范围是10ppm,碎片离子质量偏差容忍范围是0.02Da;

  • 片类型(Spectrum Matching):大分子采用HCD进行母离子碎裂,产生by离子,若设定为by离子,搜索引擎只按by离子的规则切割,为尽量缩短搜库时间和降低错误率,不建议再加入其它离子类型。

  • 修饰类型:包括固定修饰(Static Modifications)和可变修饰(Dynamic Modifications)。固定修饰,顾名思义,是在某种氨基酸残基上一定出现的基团修饰,比如样品还原烷基化过程中引入的Carbomidomethyl化学修饰,若设定为固定修饰,搜库时该氨基酸残基会加上修饰基团的绝对分子量;另一种是可变修饰,即动态修饰,指的是在肽段侧链上可能发生的化学修饰,比如磷酸化、乙酰化、泛素化;蛋白末端可能发生的乙酰化修饰、甲硫氨酸氧化等。若设定为可变修饰,搜库时,该氨基酸残基会以未发生修饰和发生修饰(需要加上修饰基团分子量)两种情况进行匹配,所以搜库时间会相应增加。为尽可能鉴定更多蛋白,建议使用可变修饰,如,当对肽段进行 TMT/iTRAQ 标记后,理论上所有肽段的氨基(包括 N 末端和 K 侧链上的氨基)均会被标记,但在实际实验操作中,并不能保证所有氨基都会被标记上,可以将TMT/iTRAQ标签设置为可变修饰,虽然会以时间延长为代价,但获得的结果会更完整。


搜库结果评估

通常需要对搜库结果进行评估,采用正反库(target-decoy)卡值的质量控制是目前应用最为广泛的方法。基本思路是把蛋白数据库中每个蛋白氨基酸序列反向颠倒,得到所谓的反库,反库中的肽段在现实中是不存在的,如果实验谱图与反库中的多肽匹配,可以认为这种匹配是错误的匹配,将反库中的结果作为假阳性的衡量标准


接下来是将同一肽段的PSM组装到一起,再根据搜反库产生的PEPs、q-value和FDR设定的阈值来验证肽段可信度(High,Medium)并过滤肽段,以及蛋白过滤,将鉴定到相同肽段的蛋白进行组装后,最终得到非冗余的鉴定蛋白数目(Protein Groups)。这也就是我们得到的蛋白鉴定结果。


参考文献:J. K. Eng, A.L.M., and J. R. Yates, An approach to correlate MS/MSdata to amino acid sequences in a protein database. J. American Soc. MassSpectrom, 1994.5:p.976-989

预告


我们下一期的蛋白质组学系列内容为:蛋白质组相关数据库与使用方法,敬请关注~~


为你读文献

为你分享资源

为你分析研究思路

为你提供最前沿的科研动态

学霸,逗逼,科学家,文艺青年同在!

诺禾蛋白丨提供领先的蛋白质组学方案

长按识别二维码,关注诺禾蛋白



友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟