利用宏基因组序列来确定蛋白质结构

2023-05-18 23:00:13

华盛顿大学David Baker领导的团队与美国能源部联合基因组研究所（JGI）合作，在《Science》杂志上报道了614个蛋白家族的结构模型，而它们之前没有结构信息。在这项研究中，Baker实验室的蛋白质结构预测服务器Rosetta分析了JGI集成微生物基因组（IMG）系统上的宏基因组序列。

对于蛋白质而言，外观很重要。当然，这并不是指颜值，而是三维结构。蛋白质是由长的氨基酸链组成的，但一维的氨基酸序列似乎没有意义。只有了解三维结构，研究人员才能弄清蛋白质的结构如何决定它的功能。

在蛋白质家族数据库Pfam中有接近15,000个蛋白质家族。对于近三分之一（4,752）的家族，每个家族中至少有一种已通过实验确定其结构的蛋白质。对于另三分之一（4,886）的家族，可根据一定程度的置信度建立比较模型。然而，对于另外5,211个蛋白家族，目前没有任何结构信息。

近日，美国华盛顿大学David Baker领导的团队与美国能源部联合基因组研究所（JGI）合作，在《Science》杂志上报道了614个蛋白家族的结构模型，而它们之前没有结构信息。在这项研究中，Baker实验室的蛋白质结构预测服务器Rosetta分析了JGI集成微生物基因组（IMG）系统上的宏基因组序列。

文章的第一作者Sergey Ovchinnikov表示：“大量的蛋白质家族有着很少的序列。这导致没有人关心这些家族，且不能应用协同进化的方法来研究它们。有了宏基因组学，我们发现一些被忽略的家族也有着丰富内容。另外，我们提供这些家族代表性序列的3D模型。我们希望这能激发大家的一些兴趣。”

有了基因组序列，Baker等研究人员能够鉴定出同时进化的氨基酸，即时它们在未折叠的链上彼此不相邻。这些事件表明，这些氨基酸在折叠蛋白质中是邻居，为研究人员研究蛋白结构提供了线索。结构上的接近可以提示功能关系，以及自然选择在功能上的作用。

JGI的Nikos Kyrpides表示，Baker实验室与JGI之间的合作让团队提出了一个强大的方法来预测结构和结构比对。“正如预期的那样，当我们增加了宏基因组学数据，利用我们数据库中50亿个组装好的宏基因组序列，我们能够明显增加许多已知蛋白家族的覆盖。”

研究人员确定了建模所需的序列数量，开发出模型质量的标准，并且在可能的情况下，将预测的接触与已知结构进行匹配来改进建模。这种方法预测出614个蛋白质家族的优质结构模型，其中约140个带有PDB中未出现的折叠。这种方法提供了大蛋白家族的代表性模型，向着蛋白质结构计划的目标迈进了一大步。

原文标题

Protein structure determination using metagenome sequence data

今日动态更多精彩内容

基因和出生地共同塑造肠道微生物组

大规模宏基因组研究的惊人发现

......

了解详情，请点击【阅读原文】

大家在看

时尚种草机 I 什么是胜肽 2023-05-10 14:56:27
抗老能手-护肤品中的胜肽分析 2023-05-10 14:56:27
胜肽让肌肤年轻的秘密! 2023-05-10 14:56:27
什么是胜肽? 2023-05-10 14:56:27
Bradford法测蛋白质浓度 2023-05-18 23:00:13
双缩脲法测定蛋白质含量 2023-05-18 23:00:13
提蛋白 & 蛋白含量的测定 2023-05-18 23:00:13
硼酸亲和层析法检测糖化血红蛋白A1c 的效果评估 2023-05-18 23:00:13
难怪说蛋白质是人体必须品 2023-05-18 23:00:13
低成本提高青贮蛋白含量的新方法 2023-05-18 23:00:13