后步条件控制的深度卷积网络用来预测蛋白质的二级结构

2023-05-18 23:00:13

原文名:Next-Step Conditioned Deep Convolutional Neural Networks Improve Protein Secondary Structure Prediction

链接:https://arxiv.org/abs/1702.03865

 

【这是“谷歌大脑”的一篇研究成果。作者应用卷积神经网络来处理氨基酸序列,预测蛋白质的二级结构。虽然卷积神经网络一般不能处理一维、且长度变化的输入数据,但是作者设计了合适的数据转换方法,将数据转换成卷积网络可以处理的结构,并进行训练和预测。结果表明,他们的方法取得了领域当前最优的成绩。】


摘要翻译

动机:深度学习技术已经大大的提高了图像识别和语言识别的准确率。在这篇文章中,作者展示了应用这些技术来创造一种新颖的链式卷积架构,并引入了后续条件的概念,来预测蛋白质的二维结构。作者进而将他们的方法应用到八类蛋白质二维结构预测中,都大大的提高了预测的准确度。

 

结果:通过应用卷积神经网络,作者取得了一个当前领域最优的结果。在普遍使用的CB513参照系中,他们的模型达到了70%的平均氨基酸准确率,而且这样的结果并没有额外的使用常用的增强表现的方法,如多任务学习法。作者进而应用链式预测法,将二维结构的预测转化为后续预测问题,这样又提高已经是领域最优的结果。这样的模型取得了70.3%准确率,而且是单一模型预测出来的结果。如果将类似的多套模型联合预测,则可以取得71.4%的准确率,将此前的最优结果大大的提高了。

 

下载:作者的模型由TensorFlow实现。作者注明他们会将这些源代码开源出来。

 

说明

1. 蛋白质的二维结构在了解蛋白质的作用区域的时候很有用处,它一般包含alpha螺旋和beta折叠。虽然目前的技术测量蛋白质的氨基酸序列很成熟,但是尚无有效的方法在各种环境中测量其二级结构。因此有各种计算机算法在实现这样的预测。

2. 整个预测的过程就是输入蛋白质的一级结构(氨基酸序列),输出的是氨基酸处在的二级结构,如:alpha螺旋、beta折叠等等。

3. 蛋白质的氨基酸序列是一维数据,但是卷积操作需要二维或者多维。为了应用输入数据,作者将每一个氨基酸编码为一个长度为42的向量(类似语言处理中的词向量),并将长度不到700的蛋白质序列补齐到700。这样最终得到了42x700的二维数据作为输入。

4. 作者的卷积网络结构如下,因为输入数据量不大,所以网络不是很复杂,总共12层。其中为了处理不同尺度的情况,网络中用到了并列的多套卷积操作(其实谷歌自己的inception概念)。

 

5. 作者继而设计了10种结构类似的网络,一起预测,并将结果取平均,得到了目前最有的结果。研究结果如下:

 

 


友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟