原文名:Sequence-based prediction of protein protein interaction using a deep-learning algorithm
原文链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-017-1700-2
【最近医学影像深度学习方向的文章不多,换一篇生物统计学方向的文章介绍,由北京大学定量生物学中心的研究人员发表。个人感觉,当前的趋势是深度学习在生物统计学方向的应用,虽然不像医学影像那样遍地开花,但也逐渐增多起来。】
摘要翻译
背景:蛋白质-蛋白质相互作用(PPI)在许多生物过程中都发挥了关键作用。因此为了更好地理解蛋白质功能,疾病发生与药物设计,开发准确、高通量的PPI识别方法是极为必要的。尽管各种预测PPI的计算方法已被开发,但在应用到外部数据集的时候,这些方法的鲁棒性与预测准确性是未知的。深度学习算法在多个领域已被成功应用,但在PPI预测上的有效性尚未被测试。
。
结果:作者应用了深度学习的一种算法,堆叠自编码器(Stacked AutoEncoder, SAE),研究了基于序列的PPI预测。研究最好的模型结果在10倍交叉验证中达到了97.19%的平均精度。将此应用到各种外部数据集,其预测精度达到了87.99%到99.21%不等,这一结果超越此前的方法。
结论:作者介绍他们的研究是第一个应用深度学习算法开展以序列为基础的PPI预测,结果表明该算法在这一研究领域的巨大潜力。
说明
1. 基准数据集:36,545 阳性样本(the human protein references database,HPRD,2007 version,去重复),36,323 阴性样本(随机组合不同亚细胞定位的蛋白质而获得)。
源自: http://www.csbio.sjtu.edu.cn/bioinf/LR_PPI/Data.htm
2. 验证数据集:
a) 内部验证集:从标杆数据集中随机选出7,000样本(3,493阳性,3,507阴性);
b) 外部验证数据集:
i. 2010 HPRD 数据集;
ii. 2010 HPRD NR dataset(删除序列相似度25%的蛋白);
iii. DIP数据集;
iv. HIPPIE数据集;
v. inWeb_inbiomap数据集;
vi. 2005 Martin数据集。
3. 输入数据的标准化:因为蛋白质序列的长度是可变的,但是作者用到的神经网络的输入是定长的,因此需要将原始数据进行编码,转换成等长度的序列。作者应用了两种方法分别进行编码,并进行模型训练分析。作者的编码方法有:
a) AC法(Autocovariance法):描述变量如何在不同残基位置相关和交互,已被广泛使用于蛋白的编码。蛋白质的序列由一下方程表述:
这种方式,可变长度的蛋白序列可以被编码成相同长度的向量(j×lag)。本文中j=7,lag=30。每组蛋白质的编码被标准化后输入模型,进行训练。
b) CT法(Conjoint triad法):仅使用序列信息表征蛋白质。首先,所有20个氨基酸根据它们的极性和侧链体积聚成七簇。接下来,每个氨基酸蛋白质序列由其对应簇数替换。例如,序列MREIVHIQAG将被替换成 3562142411。然后,3个氨基酸的长度窗口一步一步从N-末端移到C-末端。三个数字组合的频率被计算出来蛋白质序列将由一个343位数字的向量来表示。例如:
4. 深度学习算法(Stacked AutoEncoder,SAE):
堆叠自动编码是深度学习中最基础的一种方法,其原理主要分两步:首先是降维:用更少的变量表达更多的变量包含的信息,在神经网络里表现为第二层的神经元数目比第一次少,第三层的比第二层少,以此类推,一层层叠加。第二步是升维:用更多的变量还原原有的信息,在神经网络里就表现为后一层的神经元比前一层数目多,也是层层叠加,而且网络结构一般与第一步对称,最终恢复到与原始输入相同的变量数目(维度相同)。
自动编码器模型的训练过程就是让生成的新结果与原始的输入平均差别最小。这个训练过程是一个无监督的过程,因为整个数据不需要人为标注。
在上述训练完毕后,模型权重已经基本训练好,取模型的第一步部分进行微调,将降维结果与所需分类的标注结合起来,从而完成模型的训练,进而可以预测新数据。
作者用到的神经网络如下(输出是0/1,表示有无作用):
5. 重点结果:比较SAE与其他算法的训练准确性
Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟