Nature:合成人类蛋白组质学有助加速蛋白研究

2023-05-10 14:56:27

基于质谱(Mass spectrometry, MS)的蛋白质组学作为一种完全定量的技术,连接基因型和表型,已经成为生命科学中必不可少的工具。仪器和信息学方面的改进推动了这些进步,现在可以在单个实验中量化整个蛋白质组。2016 年 Kusebauch 等人提出了蛋白组学检测新方法,本期《自然方法》(Nature Methods)杂志也刊登了两个团队的重要成果,这些工作为人类蛋白质组分析提供了有效的工具。

蛋白质组学领域的主要工具是“鸟枪”数据依赖性采集(data-dependent acquisition, DDA)方法。该方法使用蛋白酶(通常是胰蛋白酶)来消化蛋白质,并通过液相色谱(liquid chromatography, LC)分离消化所得的肽,然后用二级质谱(mass spectrometer for tandem mass spectrometry, MS/MS)分析这些肽。通过搜索引擎工具将 MS/MS 质谱结果与肽谱数据库匹配,进行数据解读。然而,DDA 方法存在“带宽”问题:需要选择样本中丰度高的几个肽段打碎做扫描。因此,这种选择具有一定的随机性,偏向于检测丰度较高的肽段,并且会引起采样过疏——即使使用多个搜索引擎,也有可能会错过许多丰度较低的蛋白质。

在最近开发的数据非依赖采集(data-independent acquisition, DIA)方法(如 SWATH-MS 和 MSe)中,仪器可以全景式地内记录所有肽前体离子的连续测量和产物离子谱。由于所得光谱的固有复杂性,DIA 数据的计算评估要比 DDA 数据复杂得多,目前该技术还未完全成熟。DDA 和 DIA 方法旨在“发现”,并且能够表征部分重要的蛋白。

相比之下,靶向蛋白组的方法,如质谱多反应监测技术 / 选择反应监测(selected reaction monitoring/multiple-reaction, SRM/MRM)——2012 年度《自然方法》的“年度方法”——能够实现任何目标蛋白的可重复定量,包括低丰度蛋白。然而,尽管具有高灵敏度和重复性,但由于 SRM/MRM 就像精准狙击,每一枪直指目标,因此难以大规模消灭敌人。一个蛋白水解产生的肽越多,就越容易被准确定量。

与基因组相反,人类蛋白质组由于复杂性更高,因此被破译程度较低。据 UniProtKB / SwissProt 数据库资料,“典型”的人类蛋白质总数为 20171 个(截至 2017 年 1 月)。然而,现有的“蛋白质形式”数量更大,并且由于存在 mRNA 剪接、翻译后修饰(post-translational modifications, PTM)、单氨基酸变体(single-amino-acid variants, SAAV)等现象,所以蛋白质总数量非常难以估计。鉴于鸟枪方法的局限性,最近发表的三篇研究的重点是开发稳定和可重复的 SRM/MRM 技术,以用于量化所有蛋白质。为了实现这一目标,三个研究小组以不同的方法改进人类全蛋白质组检测技术(图 1)。

图 1 破译人类全蛋白组的流程。(1)研究人员将数据提交给公共蛋白质组数据库(例如,ProteomeXchange)。 (2)其它蛋白质组学平台(如 GPMDB、PeptideAtlas 和 ProteomicsDB)对公共数据进行再分析。(3)根据公共数据的实验观察结果得到候选肽列表。(4)用新的变体肽扩充候选肽列表。(5)使用计算机预测方法生成最终版本的蛋白肽列表。(6a)生成合成肽。(6b)在替代方法中,蛋白质肽由蛋白酶消化重组蛋白得到。(7)使用不同仪器和一系列碎片类型和碰撞能量产生肽光谱。(8)然后为每个肽进行 SRM/MRM 测定和验证。(9)将合成蛋白质组产生的数据(例如,质谱和 SRM/MRM 数据)存放在公共数据库中,开始迭代循环。(10)学界可以访问所有信息,可用于生成改进的谱库,开发新的破碎方式(质谱检测中,肽段需要被打碎才能进行测序),以及保留时间预测算法等。

Kusebauch 等人开创了大规模生成合成肽(一共 166174 个肽)的先河。他们生成的合成肽包括天然肽、肽变体和糖基化肽,从而创建了人类 SRMAtlas 数据库(http://www.srmatlas.org/,一个 SRM/MRM 光谱数据库),可用于定量 99.7% 的人类蛋白质。蛋白肽的选择主要依赖于 PeptideAtlas 数据库中可用的公共蛋白质组学数据。同一研究团队在 2013 年构建了酿酒酵母和结核分枝杆菌的蛋白组学数据库。事实上,尽管几十年来,合成参考标准的使用在分析化学中非常普遍,但在蛋白质组学中,由于技术上的限制和高成本等原因,合成肽的使用规模非常小。

Zolg 等人也做出了类似的努力。他们的 ProteomeTools 项目更全面(http://www.proteometools.org/ 免费提供数据)。该项目计划合成约 140 万个单独的肽,以涵盖所有人类蛋白质。Zolg 等人报告了该项目的第一次迭代成果,包括合成和 LC-MS/MS 分析 33 万多个合成胰蛋白酶肽,主要覆盖 UniProtKB / SwissProt 数据库中所有典型的人类蛋白质。ProteomeTools 还集成了由 SRMAtlas 团队生成的合成肽的一个子集。使用不同的仪器、破碎方法和碰撞能量产生合成肽的光谱,为每种肽提供了多种代表性的光谱,以涵盖不同的情况。SRMAtlas 和 Proteome Tools 都希望产生足够的合成肽,以充分表征人类全蛋白质组。ProteomeTools 团队指出,项目将包含 20 万种新型变体肽,还有大部分(约 350,000 种)是翻译后修饰的肽,如磷酸化肽、乙酰化肽、甲基化肽、泛素化肽和糖基化肽。该项目的目标是为所有肽提供 SRM / MRM 测定,并通过合成含有同量异序标签的肽来实现绝对定量。

第三项研究中,Matsumoto 等人采用了另一种策略。他们根据完整的人类 cDNA 库,合成了超过 18000 个重组蛋白质,并通过消化这些蛋白质,得到人类蛋白质的绝大多数肽。该平台被称为 iMPAQT(in vitro proteome-assisted MRM for protein absolute quantification,体外蛋白绝对定量质谱多反应监测系统)。通过使用已知浓度的肽标准品,该平台采用未广泛使用的 mTRAQ((mass differential tags for relative and absolute quantification,质量差异同位素标记相对与绝对定量标签))方法,可以提供绝对量化,而非相对值。iMPAQT 平台的主要缺点是目前无法水解产生含有预定义 PTM 的蛋白肽。然而,由于结果重复性高,该方法的用途可能会比合成肽方法更广泛。

值得注意的是,ProteomeTools 和 SRMAtlas 项目广泛使用了现有(例如 ProteomeXchange 和其他蛋白质组学数据库)的蛋白质组学数据,用于生成候选肽列表。此外,三个研究团队公开大部分成果,并创建数据库(例如,iMPAQT-knowledge 数据库,http://impaqt.jpost.org/ )来支持开放的数据政策,使其他科学家可以以多种方式重用数据,从而实现一个迭代的良性循环。合成肽不仅在破译人类全蛋白组上大有可为,在其它诸多方面也大有用处,包括:(1)评估结果。例如,确认罕见或新观察到的肽和蛋白质;(2)创建更全面的光谱库;(3)保留时间和碎片模型的改进;(4)改善搜索引擎和分析软件。同时,这些方法将帮助研究者们更准确和更深入地表征人类蛋白质组学。

尽管这三项研究都取得了突破性进展,但仍有一些问题亟待解决。SRM/MRM 方法本身具有一些局限性。例如,旨在支持临床决策的 SRM/MRM 测定数据将需要进一步验证,理想情况下在大型患者队列中进行验证。其它技术问题也仍然存在,因为合成肽缺乏天然蛋白质的复杂性。因此,未来也需要考虑合成一些来自蛋白不完全水解的肽和含有额外 PTM 的肽。此外,迄今为止的数据主要针对胰蛋白酶完全水解人类蛋白组所得到的肽。未来,也应该考虑使用其它消化酶(例如 LysC、LysN、AspN、GluC 和 ArgC)来进行蛋白水解,以更全面地覆盖人类蛋白组。

另一个问题是,即使各大研究团队已经公布数据,但还没有有效的方法来促使各个团队有效协调,从而避免重复工作。蛋白质组学社区应当引导研究者们进行协调,数据共享,同时加强整个领域的合作。ProteomeTools 团队已经明确欢迎任何研究成员加入到其后期研究中,完成一部分工作,例如,使用其它仪器检测合成肽的质谱。这样的合作值得支持和鼓励。

原文检索:

Yasset Perez-Riverol & Juan Antonio Vizcaíno. (2017) Synthetic human proteomes for accelerating protein research. Nature Methods, 14(1038): 240-242.


友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟