【干货转发】生物信息分析入门全攻略

2023-05-10 14:56:27

生物信息学是生命科学研究的重大前沿领域，未来将占据生命科学研究的半壁江山。已经有越来越多的小伙伴投入到生物信息的学习中，但是入门难、深入慢、摸不到方向等都成为持续学习的拦路虎。本文根据生物信息技术大牛成长经历和华大人才培养经验总结入门攻略，带领小伙伴们全面破解生物信息学习难题。

谁可以来学

什么是生物信息学？现在已有的定义都非常宽泛，例如这个：“生物信息学利用应用数学、信息学和计算机科学的方法研究生物学的问题”。感觉好像是非生物学背景的人从事的实践。

实际上，当你真正从事生物信息工作或研究时，可能会发现你需完成的事情大致分为三类：一是开发、设计生物信息学方法和技术，构建数据库；二是用成熟的方法、技术和数据库，来研究自己的问题；三是两者结合。

由此可见，生物学背景、数学背景、计算机背景、统计学背景等，对生物信息感兴趣，有意向从事生物信息方向的工作或科研的人都可以参与生物信息学的学习。

你需要学什么

从上面关于生物信息学的定义和具体从事的实践工作，可以看出，要胜任生物信息学方面的研究或工作，需要具备以下几方面的知识：

1、计算机基础知识；

2、生物学基础知识；

3、生物信息基础知识。

1、计算机方面

你需要掌握linux操作基础，学会Perl语言和R语言。C语言和java也是不错的编程语言。但在生物信息领域使用比较多的还是Perl和R。现在使用Python人也越来越多。

2、生物基础知识方面

非生物背景的人，需要特别加强了解生物学方面的知识。系统地学习一两门生物学课程是非常必要的，同时还需要根据研究或工作需要及时补充学习相关知识。

3、生物信息方面

首先需要了解生物信息学的一些基本概念和研究内容等，这方面可以选择一两本生物信息学教材来学习；其次学习掌握测序、数据库、数据格式等基础知识，学习关于生物信息的研究领域，如全基因组、外显子、目标区域捕获等，以及生物信息的应用领域，如肿瘤筛查、产前诊断、个体化医疗等。

这方面可以查看一些大牛的综述进行学习。

a) 生信基础软件

(blast，blat，fastqc，blast，clustw，phylip等)
b) NGS variant calling相关软件

（bwa，samtools，picard，GATK，VarScan，beagle等）
c) 基因组相关软件

（velvet，SOAPdenovo2，repeatmasker, Glimmer, orthMCL等）
d) 转录组相关软件

(bowtie,，trinity，tophat，cufflinks，cuffdiff，DEseq， SOAPfuse等）

初学者必读的经典书籍

导论
生物信息学陈铭主编，科学出版社
Fundamental Concepts of Bioinformatics (USA) Dan E. Krane & Michael L.Raymer (2003) Pearson Education
Post-genome Informatics Minoru Kanehisa （金久时）(2001) Oxford University Press
Introduction to Bioinformatics Teresa K. Attwood etc. (1999 ) Prentice Hall
专著
Bioinformatics: Sequence and Genome Analysis (USA) David W. Mount
Computational Molecular Biology: An Algorithmic Approach, Pavel A. Pevzner(2000) MIT Press
Statistical Analysis of Gene Expression Microarray Data Terry Speed (2003)Chapman & Hall/CRC

每天必上的Bioinformatics网站

数据库网站

NCBI

http://www.ncbi.nlm.nih.gov/
Ensembl

http://www.ensembl.org/
Gene Ontology

http://www.geneontology.org/

UCSC

http://genome.ucsc.edu/

Genecard

http://www.genecards.org/

UniprokUniprok

http://www.uniprot.org/

主要的生物信息学期刊网站

bioinfomatics
http://bioinformatics.oxfordjournals.org/archive/
BMC Bioinfomatics
http://www.biomedcentral.com/bmcbioinformatics/
PLoS Computational Biology
http://www.ploscompbiol.org/home.action
Nucleic Acids Research
http://nar.oxfordjournals.org/

Genome Research

http://genome.cshlp.org/

SCI-hub

http://sci-hub.org

植物

http://www.arabidopsis.org/
http://www.mirbase.org/

统计

http://stats.stackexchange.com/

http://www.biostatistic.net/portal.php

中文
http://www.plob.org/

http://www.yunbio.com/（云生物）

论坛

BioBB

http://www.bioinformatics.org/pipermail/bbb/

BioC

https://stat.ethz.ch/mailman/listinfo/bioconductor

BioPerl

http://www.bioperl.org/wiki/Mailing_lists

BioPython

http://lists.open-bio.org/pipermail/biopython/

BioRuby

http://lists.open-bio.org/pipermail/bioruby/

BioStar

http://biostar.stackexchange.com/

Blue Obelisk

http://blueobelisk.shapado.com/

CCP4 bulletin board

https://www.jiscmail.ac.uk/cgi-bin/webadmin?A0=CCP4BB

gmx-users

http://lists.gromacs.org/pipermail/gmx-users/

MetaOptimize

http://metaoptimize.com/qa/

Molecular Station

http://www.molecularstation.com/

Protocol Online

http://www.protocol-online.org/

R-help

https://stat.ethz.ch/mailman/listinfo/r-help

Stackoverflow

http://stackoverflow.com/

Stats

http://stats.stackexchange.com/

GATK Support Forum

http://gatkforums.broadinstitute.org/

其他

https://david.ncifcrf.gov/home.jsp

http://www.genome.jp/kegg/
http://www.uniprot.org/
http://www.ebi.ac.uk/
http://www.expasy.org/
SEQanswers
http://www.seqanswers.com/
BioStar
http://www.biostars.org/

避免几个新手常犯的错误

1、不要混乱的目录结构

从一开始就建立清晰明了的目录结构，可以按照项目和分析建立清晰的目录结构。随手建立的糟糕目录结构迟早会让你抓狂的。

2、不要试图高大全的万能程序

把复杂的问题划分成子问题，分别解决，不要试图写一个解决所有问题的万能程序。

3、不要自己制造轮子

有现成的工具，那就用现成的工具。不要试图自己制造轮子。

4、要quick and dirty

不要试图一次做出完美的结果，得到初步结果后进行逐步完善。

5、会用shell并及时备份

运行程序适用shell脚本，保留命令行，供日后查看；及时备份结果和分析程序，防止误删后无法恢复，在linux上恢复数据非常困难。

6、所有文件都混在一起

将Home目录放在一个独立的分区上，可以在你重装系统甚至升级你的整个版本而不丢失你的数据和个人设置。

最后也是最重要的，要合作不要单干，不要自己做所有分析，和有经验的人合作是一种非常高效的学习方式。

（摘自华大基因）

长期在实验台上工作的你，是不是常常对这些问题倍感困惑：

从哪里获取一个基因从蛋白结构到疾病相关的所有信息？
如何在自己的电脑上查看一个蛋白的三维结构？
如何预测一个蛋白的功能及其结构域？
如何知道基因在各类通路中的上下游基因？
如何了解或者预测某个蛋白的相互作用蛋白？
如何了解或者预测某个蛋白的相互作用小分子？
组学、质谱、芯片、二代测序有什么区别？如何针对自己的研究目的选取合适的方法？

如果您也有这些困惑，那么上海交大医学院生物信息学中心联合主办的《实用生物信息学培训班》，将为您奉上一道精心打造、能为您解疑答惑的精选课程大餐。

主办单位：上海宇道生物技术有限公司
上海交通大学医学院医药生物信息学中心
协办单位：上海艾普拓普生物科技有限公司
举办地点：上海交通大学医学院
（上海市重庆南路280号4号楼）
培训时间：2016年1月15日-1月17日
费用标准：2700 RMB/人
（费用包括教材/培训费/上机/午餐费）
费用优惠：凭巴傲得会员卡优惠200元！凭分享到微信朋友圈截图优惠100元！（两者可叠加使用）

小班化教学，满10人开班，每期不超过35人，名额有限，欲报从速，培训结束将发放《实用生物信息学》培训证书。培训期间午餐由本中心提供，住宿可协助预定校内宾馆，费用自理。

课程安排

时间	课程	时长
第一天	基础生物信息学概论	8:30–10:00
	基因、蛋白信息检索方法与软件	10:15–11:45
	午餐
	蛋白三维结构查看、蛋白序列比对、蛋白功能及结构域预测方法与软件	13:30–15:30
	上机实践注：可以对自己感兴趣的基因/蛋白进行检索，中心将安排多位老师进行辅导	15:45–17:45
第二天	基因通路信息检索方法与软件	8:30–10:00
	蛋白相互作用检索、预测方法与软件	10:15–11:45
	午餐
	与蛋白相互作用的小分子虚拟筛选与预测	13:30–15:30
	上机实践	15:45–17:45
第三天	组学、质谱、芯片、二代测序方法的原理介绍	8:30–10:00
	组学、质谱、芯片、二代测序方法在实际研究中使用的案例介绍	10:15–11:45
	午餐

快点阅读原文，开始报名吧！

↓↓↓

大家在看

什么是五胜肽四胜肽三胜肽(康婷人不知道的秘密) 2023-05-10 14:56:27
小分子胜肽的生理功能让蛋白质望尘莫及 2023-05-10 14:56:27
珊瑚的7天拯救日记 2023-05-18 23:00:13
杜马斯燃烧法测食品和农产品中的氮/蛋白质含量 2023-05-18 23:00:13
蛋白质:为什么是必须品? 2023-05-18 23:00:13
免疫法与转铁蛋白检测法联合检测提高粪便潜血阳性检出率 2023-05-18 23:00:13
饲料和饲料原料中粗蛋白含量测定的影响因素分析 2023-05-18 23:00:13
高通量检测单细胞中RNA和蛋白质的新方法 2023-05-18 23:00:13
Luis Gonzalez的珊瑚缸 2023-05-18 23:00:13
第十期:循环水养虾模式 2023-05-18 23:00:13