福建水产设备联盟

Proteins| 深度学习预测蛋白接触图谱

王初课题组 2018-11-08 13:07:18

大家好,本周给大家推荐一篇来自Proteins上的文章,文章的题目是Protein contact prediction by integrating deep multiple sequence alignments, coevolution and machine learning。 作者是来自哥伦比亚密苏里大学计算机科学系教授的Jianlin Cheng。实验室的主要方向是蛋白质结构和功能预测,3D基因组结构建模,基于组学的生物网络建模。程博士在生物信息学,计算生物学,数据挖掘和机器学习领域有超过100种出版物,根据Google Scholar统计数据,这些出版物被引用了数千次。郑博士为3D基因组结构建模工作获得了2012年NSF职业荣誉奖。国家卫生研究所支持的蛋白质结构预测方法(MULTICOM)在最近几轮社区范围内对蛋白质结构预测技术的临界评估(CASP)进行了一致性评估。(https://en.wikipedia.org/wiki/Jianlin_Cheng)

在缺乏同源结构的情况下,想进行结构从头预测的重要关键是拿到残基之间的相互作用。如果可以拿到足够数量的相互作用,我们就可以拿到离native structure非常近的结构(小于2A)。尤其是长程的距离相互作用对结构建模更加关键,不过同时也非常的难得。目前为止涌现了大量的接触预测算法。这些算大都是依赖于大量的同源序列,作者开发了一个深度多序列比对的比对算法,和基于共进化的接触预测。


在这个工作中,作者报告了CASP12实验中,通过三种不同方法预测的残基接触的评估,重点研究了多序列比对,残基共进化和机器学习对接触预测的影响。第一种方法(MULTICOM-NOVEL)仅使用传统特征(序列分布,二级结构和溶剂可及性),和深度学习方法来预测接触并作为基线。第二种方法(MULTICOM-CONSTRUCT)使用我们的新的比对算法来生成深多重序列比对,以获得基于协同演化的特征,其通过神经网络方法来整合以预测接触。第三种方法(MULTICOM-CLUSTER)是前两种方法的预测的共同组合。我们评估了94个CASP12结构域的方法。在38个自由建模领域的子集中,我们的方法在顶级L / 5远程联系预测中实现了高达41.7%的平均精度。三种方法的比较表明,基于协同演化的特征和传统特征的多序列比对,基于协同演化的特征和机器学习集成的质量和有效深度推动了预测蛋白质接触的质量。在完整的CASP12数据集上,基于协同演化的功能单独可以将平均精度从28.4%提高到41.6%,所有功能的机器学习整合进一步提高了56.3%的精度,当对前面的L / 5预测长距离接触进行评估,接触预测精度与比对中有效序列数的对数之间的相关性为0.66。


文章引用:

DOI 10.1002/prot.25405

文章链接:

http://onlinelibrary.wiley.com/doi/10.1002/prot.25405/epdf