你值得拥有的测序名解

2023-05-10 14:56:27

我们生信技能树论坛发布的一直是比较高阶的教程,但是粉丝中却有很多刚刚入门的小朋友。而我们技能树论坛创立之初就是为了与生信菜鸟团有所区别,不做那些特别基础入门的分享,都是跟着我学了两三年的生信工程师的宝贵经验总结。不过也不能放弃菜鸟们,所以有些小伙伴自告奋勇的重建起生信菜鸟团,希望可以带领新手们入门,请大家多多关注,入门的同时在我们生信技能树论坛加技能点!

下面是正文:

高通量测序领域常用名词解释大全


看看这么多不会的知识降降温


你还在等什么呢?

自学者和学生的区别,不在于知识的广度,而在于生命力和自信心的差异。 by 米兰·昆德拉

Q
啥是高通量测序技术啊?
A

英文名叫High-throughput sequencing,简称HTS,就是一次对几十到几百万条核酸分子进行序列测定呗。外号叫 下一代测序,也有人叫它深度测序。


Q

那Sanger法测序又是什么玩意儿?


A

高通量测序叫下一代测序,它叫一代测序。是高通量测序的爸爸,你要说妈妈也行。反正就是上一代呗。它是直接测序,利用一种DNA聚合酶来延伸结合在待定序列模板上的引物,直到掺入一种链终止核苷酸为止。而二代测序是将基因组DNA随机分割成小片段的DNA分子,然后在体外给这些小片段分子的末端连接上接头制成文库,获得测序模板。它精准,但是测序通量太小,所以就out啦。

Q
那什么是全基因组重测序呢?是重新测序的意思么?
A

也对,因为基因组序列已知啦,但是由于个体的不同就有了差异性,所以需要对不同的个体进行测序哦,并且在此的基础上,对个体或者群体的差异性进行分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点和拷贝数变异位点(CNV,copy number variation)。然后经过注释,就能得到很多很多有用的信息,具有辣么辣么大(比我的脸大很多)的科研和产业价值。她的英文名叫英文名为Genome Re-sequencing哦。



Q

de novo测序是什么鬼?


A
 一看,就不是英语。一查,原来是拉丁文。也叫从头测序(这多好,通俗易懂。)牛逼的是不要任何现有的序列资料就可以对某个物种进行测序,通过生物信息学分析手段对序列进行拼接,组装,就可以获得该物种的基因图谱了。嗷~~厉害了。所以我们一猜他就是应用于从头解析未知物种的基因组序列、基因组成、进化特点等



Q

咦~我好像听说过外显子测序!!


A

哦,你厉害呗。顾名思义,它就是通过序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。因为外显子相对少啊,所以成本低啊,,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。一会儿我告诉你啥叫SNP、Indel、基因组结构变异噻。


Q

mRNA测序 (RNA-seq)???


A

转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。

Illumina公司提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。

研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

以上!





Q

small RNA测序就是对小RNA进行测序喽?


A

机智!从前有三个人micro RNAs、siRNAs和 pi RNAs,他们都叫Small RNA(和谐创造美好未来,三人用一名儿也是很可以),他们是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。

Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。

实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。 


Q

我那天在生信技能树论坛上看到了

“Chip-seq”?

A



真有文化,知道生信技能树,一看你就一肚子墨水。

我告诉你哦,染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。

将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

原理如→:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;

然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,

从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。


能干下面这些事:

(1)判断DNA链的某一特定位置会出现何种组蛋白修饰

(2)检测RNA polymerase II及其它反式因子在基因组上结合位点的精确定位;

(3)研究组蛋白共价修饰基因表达的关系;

(4)CTCF转录因子研究。




Q

RIP-seq?是不是写错单词了,应该是rap,

you! boy!呦呦呦!


A

用我英语老师的话说:肾荆饼(神经病)。

英文名可长了RNA Immunoprecipitation,

是研究细胞内RNA与蛋白结合情况的技术,

是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。

这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。 

它对象(研究对象,不是女朋友!)是RNA-蛋白复合物不是DNA-蛋白复合物。

RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,

帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

Q

嘛是metagenomic(宏基因组)?

A

听起来很大,结果研究的对象是整个微生物群落。相对于传统单个细菌研究来说,他有两个牛逼的优点:(1) 微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;

(2) Metagenomics研究不需要!不需要!不需要分离单个细菌,所以可以研究那些不能被实验室分离培养的微生物。


下面念经模式:

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

Q

现在可以告诉我啥是SNP、SNV?

A

单核苷酸多态性,单核苷酸多态性,单核苷酸多态性(我记了很多次,没记住~)singlenucleotide polymorphism,SNP 或

单核苷酸位点变异SNV。

个体间(注意是个体间哦)基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。

人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

最后,记住是个体间啦!!

Q

什么是INDEL ?

A

两人关系好呗,就合起来叫一个名字。insertion-deletion,就是插入和缺失喽。

基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

指的是两种亲本(注意是亲本)中在全基因组中的差异,相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失,根据基因组中插入缺失位点,设计一些扩增这些插入缺失位点的PCR 引物。

说了是亲本了啦~~(台湾腔)

Q

CNV全称?

A

copy number variation 翻译为基因组拷贝数变异(西北汉子就是喜欢简单粗暴的这种翻译!!)

基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。

例如人类正常染色体拷贝数是2(这~~应该不是我2),有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。

如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。扩增的真任性!

Q

什么是structure variation (SV):基因组结构变异?

A

这个是染色体结构变异!注意!染色体哦。

就是在染色体上发生了大片段的变异。

主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。

Q

Segment duplication?什么重复,单词不认识!(尬笑)

A

串联重复!

一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。

串联重复在人类基因多样性的灵长类基因中发挥重要作用。

在人类染色体Y和22号染色体上,有很大的SD序列。(是男生发生的多么??)

Q

genotype and phenotype 就是基因型与表型吧!

A

终于不问我了!它呢~一般指某些单核苷酸位点变异与表现形式间的关系。

Q

Read是读书么?

A

不是啦,就你英语好!哼!

是序列标签,翻译为读段!高通量测序平台产生的序列标签就称为reads。

我是谁?
谁管你是谁!
Q

soft-clipped reads?

A

因为他对鉴定染色体结构变异及外源序列整合具有重要作用。所以我们要晓得它~

当基因组发生某一段的缺失,或转录组的剪接,

在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,

这样的reads叫做soft-clipped reads

Q

multi-hits reads 是有多个匹配位置的reads?

A

对呀,由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。

一些工具根据统计模型,如将这类reads分配给reads较多的区域。

Q

什么是Contig?

什么是Contig N50?

A

1.拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。


2.Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。 


总而言之:1.Contig就是reads之间的重叠区拼接获得的序列!

2.就是将不同长度的Contig从长到短排序,一次相加,加到总长的1/2时的Contig就是Contig N50。

Q

什么是Scaffold?

什么是Scaffold N50?

A

1.基因组de novo测序,通过reads拼接获得Contigs后,

往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

就是知道顺序的Contigs组成Scaffold!!

2.同理

Q

什么是测序深度和覆盖度?

A

1.测序深度是指测序得到的 总碱基数/待测基因组


假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。


2. 覆盖度是 测序获得的序列/整个基因组。


由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。


记住啦!

Q

什么是RPKM、FPKM?

A


下面是一道六级翻译题:


RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway  :

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。 假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read


Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.

映射到外显子上 总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。


Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.

外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。


Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。


FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

累死你了,下面问题我问的简单一点。抱抱~~

Q

什么是转录本重构?

A

用测序的数据组装成转录本。

有两种组装方式:1,de-novo构建; 2,有参考基因组重构。

其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。

有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

Q

gene fusion?基因融合?

A

将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。(白眼!)

Q

你是:基因表达谱(geneexpression profile)?

你是 :通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,

大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成?

用来 描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表?

A

是!

是!

是!

戏真多!


Q

功能基因组学是研究基因的功能的组学么?

A

Functuional genomics(大声的读出来~)又往往被称为后基因组学(Postgenomics),

它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,

通过在基因组或系统水平上全面分析基因的功能,

使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。

这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。

研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,

但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。(这是copy的!)

Q

比较基因组学是啥子嘛?

A

英文名:ComparativeGenomics

是基于基因组图谱和测序基础上,

对已知的基因和基因组结构进行比较,

来了解基因的功能、表达机理和物种进化的学科。


Q

表观遗传学?

A

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,

基因表达了可遗传的变化的一门遗传学分支学科。


表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

Q

计算生物学是计算学加生物学?

A

恩哪,是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等来对生物学的数据进行计算模拟。从海量的信息中提取有用的信息。主要是现在发展太快,你又看不出来啥~~

Q

基因组印记不是胎记吧!?

A

当然不是啦!是智障!

又称遗传印记,是指基因根据亲代的不同而有不同的表达。

印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。

基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。

印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。

基因组印记病主要表现为过度生长、生长迟缓、智障!、行为异常。

目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

Q

假装不懂什么是基因组学?

A

考试名词解释标准答案如下:

基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

Q

子曰:

DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。

正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。

人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系。


由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

嗯!
Q

基因组注释:

英文名:Genomeannotation

定义:利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释。

研究内容:包括基因识别和基因功能注释两个方面。

其中,基因识别的核心是确定全基因组序列中所有基因的确切位置。

对吗??

A

对!

多关注生信菜鸟团,多关注生信技能树。

                                                           by 一个喜欢人格分裂的人

如果你耐着性子学习完了,说明你还是有些潜力在生物信息学领域深造的!

关系你,可以关注我们的生信菜鸟团啦,直接微信搜索生信菜鸟团即可,或者搜索bio_123456789

友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟