PANDA-view:一种易于使用的定量蛋白质组学数据统计分析和可视化工具

2023-05-10 14:56:27

在生命组学的新时代,随着高分辨率质谱仪(MS)和优秀实验策略的快速发展,定量蛋白质组学正在变得越来越广泛。目前,有很多算法和工具可用于识别和量化数据。然而,对于大多数具有少量编程技能的生物学研究人员而言,由于缺乏合适且易于使用的工具,下游分析(例如差异表达蛋白(DEP)的统计分析)仍然是一个主要挑战。现有的少数工具通常无法通过综合方法执行下游分析和数据可视化。在这里,为了打破组学数据(特别是定量蛋白质组学数据)和隐藏的生物/医学发现之间的障碍,我们提出了一个易于使用的工具,名为PANDA-view,用于统计分析和可视化 - 组学数据。通过以逗号分隔值(CSV)或制表符分隔的文本文件格式读取结果,PANDA-view可与其他组合工具兼容。


2方法

PANDA-view旨在提供全面的统计分析和可视化组合数据的方法,包括定量蛋白质组学数据(图1)。 

2.1数据上传和预处理

PANDA-view的输入数据可以是从其他工具获得的任何CSV或制表符分隔的文本文件。一旦选择了一个文件,其所有列名称将显示在向导图形用户界面(GUI)中。用户可以选择加载到PANDA视图中的特定列。此外,当读取非常大的文件时,多线程将自动启动,上传的数据可以动态实时显示在GUI中,以避免潜在的停顿或崩溃。 PANDA-view包含五种操作供用户探索和预处理他们的数据:(1)使用高效的快速排序算法,通过数字或字符值对任何列进行排序。 (2)使用用户定义的键搜索任何列。 (3)用用户定义的参数过滤任何列。 (4)对数。 (5)归一化,即Z分数归一化,中值归一化,最大归一化,全局归一化,四分位间距归一化,分位数归一化和方差稳定归一化(图1a)。用户可以尝试不同的标准化方法,并为他们的数据选择最好的方法。


图1a 菜单中分析和可视化功能的图标



2.2缺失值估算

已知缺失值对组学数据的分析有不利影响,如DEP检测。 因此,通常会在未来的分析之前估算缺失值。 基于R统计环境(https://www.r-project.org/),在PANDA-view中实现了两个缺失值插补方法:多重插补和最近邻居(KNN)插补。

2.3统计分析

如图1a所示,PANDAview中有7种不同情况下的DEP检测统计检验。 

(1)参数检验:t检验(配对t检验,独立t检验和Welch's t检验)和方差分析。 

(2)非参数检验:秩和检验,置换检验和Fisher精确检验。其中,Fisher精确检验用于分析离散值,例如蛋白质谱数。 

(3)微阵列的重要性分析(SAM): 尽管它最初是针对微阵列数据提出的,但由于其各种变体,SAM仍然因为组学数据而受欢迎。

 (4)多重假设检验。 PANDA-view包括几种调整p值的常用方法,如Bonferroni方法,Benjamini-Hochberg方法和Benjamini-Yekutieli方法。

2.4无监督分析 - 组学数据

对于组学数据,PANDA-view结合了三种流行的无监督分析方法,即层次聚类,K均值聚类和主成分分析(PCA)。 对于PCA,除了二维图中的scree plot,biplot和预测图外,PANDA-view还提供了一个三维散点图和一个三维双平面图,用于显示主要成分。 细节请参见图1b和补充图1-4。

图1b 数据可视化的例子

 

补充图1.参数设置和分层聚类的示例输出。 (a)简单模式。 (b)高级模式。 (c)示例输出。

补充图2. K均值聚类的参数设置(左)和示例输出(右)。

补充图3. 2D中的PCA的参数设置(左)和示例输出(右)。

补充图4. 3D中PCA的参数设置(左)和示例输出(右)。


2.5数据可视化

除了各种数据分析方法,PANDA-view还包含常用的可视化方法,包括2D / 3D散点图,折线图,直方图和箱形图(图1b)。 所有这些图形都可以通过单击和拖动来放大或缩小,并可以以用户定义的大小和分辨率导出为图像(JPG / PNG / BMP)或PDF文件。 此外,PANDA视图实现了DEP检测的交互式火山图。 可以使用用户定义的键搜索任何数据列,检索结果将在火山图中突出显示(补充图5)。

补充图5.参数设置和火山图的示例输出。 (a)火山图的参数设定。 (b)说明火山图中的交互性,其中可以使用用户定义的键搜索数据,检索结果将突出显示。

 

2.6蛋白质量化结果的多级表示

      PANDA-view具有一个特殊的特征,即在多个层次上显示PANDA的定量分析结果。 它可以自动识别PANDA的输出(蛋白质/肽/肽离子定量结果)。 通过在量化结果文件中右键单击相应的索引,PANDA-view可以跟踪蛋白质的定量肽段,然后用提取的离子色谱(XIC)视图跟踪相应的肽离子。 因此,蛋白质定量结果(蛋白质,肽,肽离子和XIC)的多级表示可以在PANDA视图中执行,预计可以帮助用户对其数据进行深入分析(补充图6)。 注意,肽离子表示具有一定电荷和MS鉴定的翻译后修饰的肽。

补充图6. PANDA视图中定量数据的多级表示。 (a)上传数据的GUI。 当加载PANDA的结果时,文件类型(蛋白质/肽/肽离子定量结果)将被自动识别。 (b)定量数据的多级表示图示:蛋白质列表肽列表肽段离子列表XIC视图。





3结论

总之,PANDA-view是一种易于使用的多功能工具,用于统计分析和可视化组织数据,特别是定量蛋白质组学数据。 它可以通过提供全面的数据预处理方法,DEP统计检验以及聚类分析和PCA来处理带标签和无标签的定量数据。 除了常用的数据可视化方法之外,PANDA-view还为PANDA的量化结果实现了多级表示,这有助于终端用户详细探索和手动验证其数据。

编者




按语


PANDA-view下载网址  https://sourceforge.net/projects/panda-view/.

文献来源:

Chang C, Xu K, Guo C et al.

PANDA-view: An easy-to-use tool for statistical analysis and visualization of quantitative proteomics data.Bioinformatics.2018



友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟