预测蛋白三维结构为啥困难

2023-05-18 23:00:13

细胞中的蛋白是如何折叠的呢?上图先:


这张图来自翟中和的《细胞生物学》教材。当mRNA出细胞核被运到细胞质基质,核糖体结合上去合成多肽链,到分选到不同的细胞结构上。新生多肽有三种命运,第一种是带有内质网定向信号序列的正在翻译的多肽带着核糖体,经过共翻译转运途径运到粗面内质网上,在粗面内质网上加工的蛋白包括分泌蛋白,内膜系统以及质膜的膜整合蛋白。第二种是带有不同靶向序列(转运到线粒体的靶向序列称为导肽,转运到叶绿体的靶向序列称为转运肽,转运到细胞核的靶向序列称为核定位信号序列)的多肽经过后翻译途径转运到细胞核,叶绿体(如果细胞有叶绿体的话),线粒体,以及过氧化酶体上。注意这前两种过程都是有其他分子参与的。第三种是形成细胞质可溶性蛋白质。

那么这个细胞内的过程可以说明什么?对于胞质可溶性蛋白质,似乎它的折叠就是在细胞质中由,疏水相互作用,氢键,离子键,范德华力等相互作用驱动的。预测其结构由高票答案介绍的思路是没有什么问题的。但是对于经过共翻译转运途径和后翻译转运途径分选的蛋白来说,抛开参与到其中的其他生物大分子,来进行预测是值得商榷的。以共翻译转运途径为例,内质网扮演了很关键的角色。下面l两张图演示了内质网中新合成的蛋白质的质量控制过程。图片来自molecular biology of the cell, 6th edition


这张图说明的是内质网腔内在对新生肽链的糖基化作用下多种大分子协助蛋白质形成正确构象。(好多大分子还是没有画出来的,如葡糖基转移酶GI,蛋白二硫键异构酶PDI)这些大分子中包括了著名的分子伴侣(图片中未展示)



这张图说明的是未折叠折叠的蛋白是如何被正确折叠。图的注释说的很清楚,就不赘述了

蛋白质折叠是个生物学问题,我觉得目前高级结构预测(尤其是三级结构预测),必须结合一些发生细胞内的分子和细胞生物学过程建模。要是能把细胞完整模拟出来就再好不过了。然而这是很困难的。

最后附上,现在的一些数据库和预测方法:(以下内容来自华中科技大学薛宇老师的生物信息学课件.,括号里面的评论是我自己加的)

蛋白质结构数据库、结构分类以及可视化数据库

蛋白质结构的数据库:PDB, MMDB, MSD

PDB (Protein Data Bank): 蛋白质结构数据

rcsb.org/pdb/home/home.

MMDB (Molecular Modeling Database):分子模拟数据库

ncbi.nlm.nih.gov/sites/b=structure

MSD (Molecular Structure Database): 大分子的相互作用和结合位点

ebi.ac.uk/msd

蛋白质结构的分类:SCOP, CATH,DALI/FSSP

COP (Structural Classification of Proteins):folds, superfamilies, and families

SCOP: Structural Classification of Proteins

CATH (Classification by Class, Architecture,Topology & Homology)

CATH: Protein Structure Classification Database at UCL

DALI/FSSP: 蛋白质三级结构的比较

DALI server

Dali server

DALI Database (fold classification)

Dali Database

蛋白质结构的可视化:Cn3D,Rasmol/Raswin(可视化工具可多了,mathmatica

蛋白质二级结构预测:(与题目无关,注意,二级结构是指多肽链形成的α螺旋和β折叠等元件,是局部构象)

Chou-Fasman predictions: Empirical

Garnier, Osguthorpe and Robson

(GOR): HMM

David T. Jones: PSSM

Frishman, Argos: Nearest neighbor

methods

Sujun Hua: SVM

蛋白质三级结构预测(应该包括四级结构,三级结构是指多肽链折叠成的完整的三维结构,四级结构是亚基形成的多聚或寡聚结构。注意一些成熟的的蛋白还有辅基,如血红蛋白)


背景知识之结构基因组学

 人的基因组中包含>22,00个基因

 细胞内:通常>3,000种蛋白质

 序列与结构

 > 2 million sequences in UniProt

 > 33,000 protein structures in the PDB

 目标:通过实验或者计算的手段解析所有蛋白质

在自然条件下的三级结构

背景知识之蛋白质折叠的动力学

蛋白质的折叠:

细胞内:自发的;酶的介导;伴侣蛋白的介导

体外:许多蛋白质不能自发折叠

动态:蛋白质的结构在自然条件下并不是固定的,蛋白质的功能常常依赖其构象的改变

自然条件下与变性之后的能量差非常小(5-15kcal/mol) 大约等于1-2个氢键的能量

折叠过程中,熵与焓都发生改变

常用方法:

Threading - Fold Recognition

 思路“搭积木”

 实验发现: 蛋白质折叠的类型有限(~1,000)

 问题: 能否根据不同的模版,预测给定蛋白质的

折叠类型,并进一步拼装成三级结构?

 计算要求:

 能量函数

 模版库(template library)

 计算方法

 将给定序列与每一个模板的序列匹配,打分

 将模板连接起来,氨基酸残基替代

 优化模型:能量函数

 计算性能:不定,序列相似性高,模型可靠性高

Ab Initio Prediction

 能量函数(考虑到下面的参数构建):

键能(bond energy)

键的转角能(bond angle energy)

二面角能(dihedral angle energy)

范德华力(van der Waals energy)

静电力(electrostatic energy)

 根据能量函数计算结构的最小自由能:Molecular Dynamics or Monte Carlo methods)

 缺点:计算量大

ROSETTA

 David Baker, U. Washington, Seattle

 “小积木”:短的肽段(3-9 residues)库能够充分反映各种肽段在局部范围内的三级结构

 肽段库的构建:PDB

 针对给定蛋白质,寻找各种肽段组合,并以能量函数予以优化

评论:这些方法都只是从序列和能量函数出发,没有考虑到酶和其它伴侣分子等分子机器的介导。我觉得它们是不妥的。我觉得应该先从序列出发,结合已有的知识,预测到哪些分子机器,哪些细胞结构会参与折叠,模拟这个折叠过程来预测蛋白质的三级结构。

原文链接:https://www.zhihu.com/question/32146905

欢迎关注生信人



友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟