[精华整理]植物组学知识库与工具总结-测测自己能不能认全

2023-05-10 14:56:27

写在前面



随着数据日益增多,数据库和工具更加细化,人们对科研的要求也越来越高。植物方面虽然有很多可以利用的工具,但是人们更多了解的还是TAIR,GO,KEGG,GEO这类万年常用的库,这样会导致虽然大家研究的方向各不相同,但是实际得到的分析结果,只能局限在很窄的范围里面,结果也非常类似。所以,要成为生信分析达人,我们有必要掌握更多的知识库和分析工具。


限于篇幅,跟大家分享三十个有代表性的基因组,蛋白质组学数据库和工具。


植物基因组数据库

在过去的十年,植物基因组测序为人们带来了前所未有的数据积累,可以帮助人们了解基因的结构,功能和进化。产生的数据包括DNA-seq序列拼接,重测序分析变异,RNA-seq研究基因表达,ChIP-seq研究基因调控机制,全基因组甲基化测序研究植物的表观遗传,以及其他的测序数据。


虽然我前面说到数据库的信息不一定代表了生物体的所有信息,但是我们仍然可以借鉴。除了三大数据库-NCBI,EMBL-EBI,DDBJ以外,还有一系列植物基因序列,功能,表达,调控数据库被经常用到。


基因序列和表达
  • TAIR

TAIR数据库是针对拟南芥的注释信息资源网站,为研究者提供完整的基因组、基因结构、基因产物、代谢通路、基因表达\基因定位\遗传标记以及发表文献信息。是从事拟南芥研究的最重要参考资源。



  • MaizeGDB

针对玉米的注释信息资源,保存了玉米的序列、表型、基因型、变异、基因表达、功能分析、代谢通路、文献查阅等信息。



此外,还需要了解的独立物种数据库有:SoyBase,大豆基因组研究资源的门户网站,它公布全基因组序列数据http://soybase.org/Sol 基因组数据库是茄科植物基因组的门户网站,包含有番茄基因组计划的信息资源http://solgenomics.net/。BarleyBase 是一个在线的植物微阵列数据及分析平台的数据库,目前收集了原始或者规范化后的芯片数据,同时提供基因的功能注释,蛋白功能区域预测、代谢途径及基因家族信息。


以上几个提到的门户数据库,特点就是对于针对性的物种来说,信息非常全。那么研究如果需要同时参考多个物种的话,以下的数据库可以借鉴。


  • PlantGDB

收录了27种植物的基因组序列信息,可进行序列的搜索下载,基因组查看,基因组的注释,剪切相关的基因等信息。



  • GeneVestigator

是一个查询基因表达的数据库和荟萃分析(Meta-analysis)系统,它可以提供很多实验室关于不同植物研究的摘要信息和可解释的表达谱芯片和转录组测序结果。在全部数据库或者选定生物学条件下,寻找组织特异性表达的基因,发展阶段下的高表达基因,并允许自己的数据与库中的数据进行比较,以寻找共表达的实验条件。植物方向目前收录包括拟南芥、大豆、烟草等11个物种。[改编自上海康昱盛信息科技有限公司官网]



  •  PLEXdb 

支持跨物种的基因表达的检索,支持个人或团队上传基因组大规模数据集。可以寻找基因型和表型的关联,允许用户探索数据集,并将其放入生物环境中进行解释。




  • ATTED 

提供基因共表达分析资料的数据库,现在包括7个双子叶物种(拟南芥、芥菜、大豆、桶胚、杨树、番茄和葡萄)和两个单子叶植物物种(水稻和玉米)的8个微阵列和6个基于RNA测序的共表达数据集。通过共表达关系用来预测未知的基因功能。因为只看共表达的结果往往假阳性比较高,所以在这个数据库中考虑了进化中的序列保守性因素,结合芯片和测序的数据使得功能预测的可靠性增强。




基因调控数据库
  •  PlantTFDB

植物转录因子的家族分类规则、基因组转录因子全谱、丰富的注释、转录因子 结合图谱(binding motifs)、转录因子预测、系统发生树等,涉及物种:包含拟南芥、水稻、杨树、大豆、玉米、小麦等 165个物种。


通过查看注释信息,从事植物转录调控研究的生物学工作者可获取该转录因子序列、功能、表达、调控等相关信息,并通过文献信息了解其研究现状。PlantTFDB中的注释信息可以分为两个层次,第一个层次为单个转录因子的注释,第二个层次为家族水平的注释。这个数据库由北京大学维护,从拟南芥转录因子数据库DATF, 到水稻转录因子数据库DRTF等单一物种,添加了很多功能并进行数据库内容综合,最终形成现在的规模。




  • PlantRegMap

基于高通量实验(ChIP-seq和DNase-seq)和比较基因组方法鉴定的多种转录调控元件,基于转录因子结合矩阵和转录调控元件推测的转录调控网络。涉及165物种的GO注释和直系同源关系。一套植物转录调控预测与分析工具,包括转录因子结合位点预测、转录调控预测与富集分析、GO富集分析及上游调控因子富集分析等。





  • ATRM

拟南芥转录调控网络及其结构和演化分析,包含基于文本挖掘和人工校验的拟南芥转录调控网络、植物转录调控网络的结构和演化特征。



  • Jaspar

收集有关转录因子与DNA 结合位点模体(motif)的最全面的公开数据库, 该数据库是由哥本哈根大学(University of Copenhagen)负责日常数据更新维护工作。JASPAR 数据库中所包含的数据, 都经过严格筛选, 有确切的实验依据, 通过计算机辅助软件进行整合识别匹配并用生物学手段进行注释




  • AGRIS

拟南芥基因调控信息服务端,包含了三个数据库。包含拟南芥的启动子序列、转录因子以及靶基因信息。可用于进行转录调控网络的构建。


三个数据分分别是:AtcisDB由注解的拟南芥基因(TAIR9释放)的大约33,000个上游区域,描述实验验证和预测的顺式调节元件组成。AtTFDB包含关于约1,770个转录因子(TF)的信息。基于保守结构域,这些TF被分组为50个家族。AtRegNet包含TFs和目标基因之间的19,013个直接相互作用。




  • GRASSIUS 

GRASSIUS提供了由数据库、计算和实验资源的集合组成的公共网络资源,其涉及草本植物中的基因表达调控,以及它们与农艺性状的关系。



基因分析工具

  • PLAZA 

该数据库提供了37种植物的结构和功能注释、基因家族、蛋白结构域、系统发育树等信息,功能注释和以往的版本相比,已经扩展,现在包括来自Gene Ontology,MapMan,UniProtKB / Swiss-Prot,PlnTFDB和PlantTFDB的数据。通过改进算法,从其他注释背景比较好的植物物种的知识信息,对研究背景少的物种进行补充注释。



  • Phytozome 

该数据库是美国能源部联合基因组研究所(JGI)维护的在线知识库,提供68个已经测序并注释的绿色植物基因组。该数据库对基因进行PFAM,KOG,KEGG,PANTHER和GO注释。可以进行查询或者批量下载。



  • GreenPhylDB

GreenPhylDB是为植物中的比较和功能基因组学设计的在线知识库。包含基于基因组基因预测的基因家族目录,涵盖了绿色植物的广泛分类。支持进化和功能研究,以确定影响农作物农艺性状的候选基因。



  • Gramene

Gramene是一个手工收录的、开源的综合数据资源,用于作物和模式植物物种的比较功能基因组学,以促进跨物种比较的研究。 Gramene目前收录了三十多种植物的基因,EST和QTL位置的遗传和物理图谱,蛋白质的结构功能分析,植物基因表达检索,Genome Browser可视化,植物通路数据库(BioCyc和Plant Reactome平台),以及表型性状和突变的描述。




  • SOL Genomics Network (SOL-GN)

后基因组时代的一个关键问题是基因组与基因组的连接,SGN允许跟踪和帮助发现新的这种联系。


SGN是国际茄科计划(SOL)的一部分,该计划的长期目标是创建一个资源和信息网络,以解决植物适应和多样化方面的关键问题。SGN)是一个以分支为导向的数据库,专门用于番茄科的生物学,包括和许多农学上大量密切相关的重要的物种,如番茄、马铃薯、烟草、茄子、辣椒、观赏矮牵牛等。



植物蛋白质组分析

如果说基因是生命的蓝图,那么蛋白就是实现生命活动的实体。蛋白通过与其他蛋白或者大分子相互作用,这种能力成为蛋白行使功能的基础。一系列高通量筛选,比如蛋白芯片或者蛋白质谱,可以一次性获得几千或者几万个蛋白的表达情况,来确定分子的信号通路和互作网络,以及植物的免疫与细胞转导过程之间的联系。


目前国际上有欧洲的PRIDE、美国的PEPTIDE ATLAS两大数据库,并组成了‘ProteomeXchange’数据联盟。”在这种情况下,要在较好的学术期刊上发表论文,不仅相关数据要全部提交到国外的数据库,就连数据的格式、内容等也要遵循联盟设置的标准。


在过去的十年中,蛋白质谱技术为贡献了很多数据,比如蛋白质组学定量(标记定量和非标记定量),低丰度的蛋白识别,未知蛋白序列的组装,蛋白相互作用鉴定,蛋白的翻译后修饰使得我们对蛋白的认识得到了很大的提升,由此促进了蛋白的信息数据库,流程标准以及分析工具的发展。在质谱领域,一个关键的问题是对公共存储库中的大量数据的分析和访问。近期也有研究人员致力于解决这些问题,开发用于从公共资源中提取有效特征,以及通过基于云的分析系统来访问数据集。这就需要开发新的标准和算法,这样的新的方法对植物质谱产生的蛋白质数据领域具有变革性的潜力。


植物蛋白数据库
  • PRIDE

蛋白质鉴定数据库(ProteomicsIdentification Database,PRIDE)是欧洲生物信息研究所建立的主要基于质谱鉴定数据的蛋白质组学数据库,用来集中储存基于质谱的蛋白质组学数据,包括蛋白质和肽段鉴定,翻译后修饰和支持图谱证据。目前已经收集了67803个数据集。



  • PeptideAtlas

PeptideAtlas数据库保存了大量的在蛋白组学实验中鉴定到的多肽,收集了人类、小鼠、酵母,以及其他生物的质谱输出文件,通过Trans Proteomic Pipeline来校正误差以确保结果的可靠性。原始数据、搜索结果以及创建信息都可以被下载以用于其他用途。



  • Global Proteome Machine andDatabase 

该数据库可实现蛋白质组学数据分析,生物和生物医学研究的重新利用和验证。GPM (Global Proteome Machine)系统由GPMO(The Global Proteome Machine Organization)支持建立。它的建立使应用串联质谱进行蛋白质组学研究的科学家,能够使用GPM数据信息来分析蛋白质组学数据。此平台由 GPMO提供并通过支持的项目来改善数据分析的质量,通过不断的测试和验证蛋白质组学结果,从而推进分析结果的便捷可靠。


GPM可针对不同类型的质谱注释信息,及时整合到分析平台中,供相关的研究人员使用。平台已整合了GO(Gene Ontology)、ENSEMBL等的数据注释。利用GPM服务器的分析数据,用来辅助在MS/MS质谱分析和蛋白覆盖模式的分析,实现MS/MS质谱数据分析(XML文件输入、输出),可根据谱图、物种分类、碎片类型、酶切位点等参数进行分析,应用tandem质谱分析蛋白质组学数据,实现后台脚本处理,实现有意义的分析结果数据的储存入库和数据的对外发布,通过accession、gpm、sequence、ontology、statistics等检索。



  • The Plant Proteomics Database(PPDB )

拟南芥和玉米(Zea mays)的植物蛋白质组数据库。最初,PPDB专门用于植物质体,但现在扩展到整个植物蛋白质组 - 因此,它于2007年11月从Plastid PDB更名为Plant PDB。PPDB存储来自内部蛋白质组和质谱分析的实验数据,关于蛋白质功能,蛋白质性质和亚细胞定位的信息。


PPDB的内容可以通过其Web界面(http://ppdb.tc.cornell.edu/)直接访问。提供多种搜索方法,使得用户可以基于基因识别号,功能注释或各种蛋白质性质检索信息。有到其他数据库的链接(例如,TAIR和TIGR)。



  • Pep2pro Database 

pep2pro数据集存储了拟南芥器官特异性的蛋白组学实验表达证据,而且允许访问日常在公共数据集,或者自身的实验中由于低覆盖度而找不到的信息。



植物蛋白质组分析工具
  • Sequest

SEQUEST是用于蛋白质鉴定的串联质谱数据分析程序,用来搜库的。

搜库软件通过以下五步来实现谱图的正确匹配

[摘自克里克学苑:听课笔记之蛋白质组学研究方法概述(下)]


1) 从数据库中选择分子量与输入值相等的肽段;
2) 生成理论碎片,并生成理论谱图;
3) 将实验谱图与理论谱图进行匹配;
4) 对匹配进行打分;
5) 将打分进行排序,通过统计学分析,确定最佳的匹配结果并导出。


  • Mascot

除了SEQUEST,还有一款使用更广泛的软件Mascot, 可用于在线搜库。Mascot软件工具是针对质谱数据,利用分子序列数据检索的方法来鉴定样本中蛋白质的组成以及翻译后修饰的,是目前蛋白组学领域使用最广泛的商业软件之一。


可用于检索任何FASTA数据库,包括蛋白质数据库、EST数据库以及基因组数据库,并支持对谱图数据库的整合搜索。支持几乎所有常用的质谱仪输出的数据格式。可满足从单线程到多线程系统或集群的高通量计算需求。[改编自上海康昱盛信息科技有限公司官网]



  • Scaffold

用于蛋白数据的整合和评估。比较、评估多种搜索引擎,多种实验设计的鉴定结果,并可视化的呈现所有相关信息,大规模组学鉴定结果筛选,支持的各类搜库软件的搜库结果分析比较,包括Mascot(可以直接提取服务器上的搜库结果), Sequest, X!Tandem等。支持各类实验设计分析,包括单个样本、MudPIT、SDS-LC等实验方法的数据文件。


提供多种非标记定量方法对数据集进行定量、提供分析结果导出并能够自动产生所有MCP需要的数据文件,通过使用Venn图表以及过滤算法,来帮助浏览数据文件。这项新的搜索功能包括了质谱名称、肽段序列,序列模式。[改编自上海康昱盛信息科技有限公司官网]



  • Peaks

可用于对蛋白质串联质谱数据的谱库检索,支持所有主流仪器产出的数据(Trap/TOF/Quadrupole/FT/Orbitrap),执行Lablefree, SILAC, ICAT, Itraq, TMT, ICPL, N-末端标记的定量分析,和de novo全新序列解序,也是唯一一个给出de novo 可信度打分的软件。[改编自上海豆谷信息科技有限公司官网]



  • The Trans Proteomic Pipeline 

分析和处理蛋白质组学串联质谱数据分析的成熟工作流,嵌入了很多开源工具,使得基于质谱实验的蛋白质组学分析变得更容易。



  • ProteoCloud

ProteoCloud是基于Java的蛋白质组学云计算工作流系统,用于串联质谱产出的肽和蛋白质鉴定。它支持数据库搜索和de novo解序。仅需要MGF文件作为输入,分析可以在多个服务器上完成,结果存储在云中的集中式SQL服务器上。使用该工作流需要Amazon Web服务帐户。



  • Chorus

也是一个云环境,可用于蛋白质组学数据的存储,数据分析和数据分享。目标是构建一个完整的世界质谱数据目录,可供全球科学界和公众免费访问。



今天跟大家分享的这些数据库和分析工具资源,是小编在日常工作中收集整理的,如果有遗漏,欢迎各位在留言区里补充,有好东西要一起分享哦~


关于我们

克里克学院是一家致力于组织生命科学及医学领域科研及应用培训的专业机构,致力于让该领域每一位愿意不断学习和自我提升的科研/临床工作者都能从中找到一系列契合自己需要的专业课程!也让每一位愿意分享和传播自己经验和学识的同行有一个可以充分发挥和展现的讲台!


我们的宗旨


打破高校壁垒,遍请天下名师!


关注我们


版权所有:克里克学院





友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟