暗DNA:遗失的基因

2023-05-10 14:56:27


暗DNA

遗失的基因


尽管一些动物的基因组中隐藏着突变巨大的DNA,但它们仍然能够茁壮成长,这使得我们不得不重新思考“进化”的定义。


Adam Hargreaves



肥沙鼠(the fat sand rat)是一种神奇的生物。它生活在洞穴中,每天吃掉大约有其体重的80%的叶子而且不喝水。但是这只沙鼠真正的奇怪之处在于它的一些DNA似乎缺失了。


|| MadeUp / Madeup.org


毫无疑问,我们大家都听说过暗物质(the dark matter),一种占据宇宙四分之一以上组分的物质。我们知道它的存在,我们只是无法检测到它。那么,类似的事情正在基因组中发生。我们把这种难以捉摸的遗传物质称为“暗DNA(the dark DNA)”。我们对沙鼠的研究旨在揭示其性质。

 

我们直到最近才对黑暗DNA有些许了解,一些正在进行的研究试图搞清楚它是否有利于那些拥有它的物种。它的存在也引发了关于遗传学和进化的一些基本问题。我们可能需要看看在分子水平上的适应性(adaptation)。有争议的是,暗DNA甚至可能是进化的驱动力。

 

沙鼠(Psammomys obesus)是一种原产于北非和中东的沙漠物种。在实验室中我们发现,当给它们喂食“正常”食物,也就是实验室啮齿类动物的标准食物时,沙鼠趋于肥胖并发展为2型糖尿病。这一实验运作于20世纪60年代,开拓了人类对营养性糖尿病的研究方向。然而,在那段时间,我们并不清楚为什么这些沙鼠对这种疾病如此敏感。

 

我们主要针对毒蛇(venomous snakes)。坦然说,毒蛇与沙鼠的联系很不紧密 ,唯一称得上联系的地方也就是,啮齿动物可能是蛇的类晚餐——所以这个物种并不是我研究的直接目标。但我喜欢神秘的事物,当我在沙鼠上得到的研究成果越多,我就越对这件事情感兴趣。吸烟枪(the smoking gun),我们称作Pdx1的基因,它编码的Pdx1蛋白具有许多作用,比如在胰腺的发育和胰岛素基因的开关( on and off )中发挥一定的作用。

 

该基因在所有脊椎动物中均有发现。有趣的是,遗传学研究未能在沙鼠中发现它。然而沙鼠具有正常的胰腺,能够分泌胰岛素。我们不得不好奇,究竟是发生了什么?

 

对我来说幸运的是,我对这种悖论的迷恋恰恰与遗传学的一次革命有关,这是我们可能的研究方向。我与包括北京华大基因研究中心(Beijing Genomics Institute)所在内的全球九所研究机构的17位研究人员合作,并着手对整个沙鼠基因组进行测序。我们发现的更令人困惑;Pdx1不是唯一缺失的基因。事实上,我们在其他动物的同一染色体上发现了一段包含将近90个基因的DNA,而在沙鼠中都找不到踪迹。这当中包括的许多基因,如Pdx1,对生存都至关重要。更神奇的是,我们在沙鼠中却找到了相应的RNA转录本—细胞用作模板合成蛋白质的遗传密码片段但基因在哪里?


|| 蛋白质的翻译过程:RNA为中间产物,起着“信使”的作用。


当我们仔细检查RNA转录本时,一条重要的线索引起了我的注意。遗传密码由四个碱基A,T,G和C组成。而在这段RNA转录本中, G和C具有极其高的水平,我们之前从未见过类似的情况。但我们意识到这可能可以解释为什么相应的DNA似乎缺失了: 标准测序技术并不能很好地提取含有高水平G和C的DNA片段。因此,我们着手使用氯化铯超速离心来提取这段DNA。这涉及在高浓度盐溶液中快速旋转切碎的DNA,以每分钟至少40,000转的速度运作至少三天,以使得致更密集的富含GC碱基的碎片沉入底部。分离出来后,我们试图单独排序。

 

这奏效了。我们发现了一个突变热点(a mutation hotspot),也就是一个突变数量非常多的DNA区域,其中许多从A或T变为G或C碱基。例如,沙鼠Pdx1含有比我们在动物界已知的任何其他版本的基因更多的突变,这导致Pdx1蛋白仅在一个与DNA结合的关键区域中就有至少15个氨基酸不同于正常版本。

 

脊椎动物在这一区域发生任何突变都极为罕见,这是因为突变通常会影响基因的功能,而这些基因对于生存来说又至关重要,所以它们在进化过程中几乎没有改变。然而尽管存在显着的突变水平,沙鼠的Pdx1基因以及其他的一些基因,仍在努力发挥作用。究竟一个基因可以在多大程度上被改变但仍能发挥正常作用,我们不得不重新审视这个问题。

 

Pdx1的极端变异可能有助于解释为什么沙鼠会患上糖尿病,我们有理由认为,他们的Pdx1蛋白可能不如其他动物的那么有效。这也解释了为什么Pdx1最初没有被发现。但在解决DNA缺失的奥秘方面,我们提出了一个有趣的可能性。我们知道了标准的基因组测序在挑选含有大量G和C碱基的DNA片段时遇到了困难,因此也许沙鼠不仅仅携带这些突变热点。暗DNA可能潜伏在其他基因组中。

 

事实上,其他12种沙鼠显然缺乏Pdx1,这表明它们也可能拥有黑暗的DNA。我们正在研究这一点。更重要的是,在鸟类中发现了与沙鼠的故事惊人的相似之处。到目前为止测序的许多鸟类基因组似乎缺少270多种其他基因组中存在的基因,包括重要的基因,如编码瘦素(一种调节饥饿的激素)的基因。

 

然而,德国Fidel Botero-Castro of Ludwig-Maximilian University的Fidel Botero-Castro及其同事的新研究表明,鸟类确实会制造这些“缺失”基因的RNA转录本。而且,这些序列在G和C碱基上都非常高。听起来有点熟?实际上,研究人员估计,在以前的研究中,大约有15%的鸟类基因被忽视。

 

这暗示着暗DNA可能相当普遍。如果是这样,我们可能不得不重新考虑一些关于基因组进化的理论! 过去我们关于进化的研究是这样的:生物学家通过比较过去十年中已经测序的数千个全基因组(见下文“破译生命密码”),试图确定哪些基因在某些谱系中丢失,哪些新基因已经出现,帮助他们了解各物种如何变得彼此不同以及适应如何在分子水平上发生。

 

如果暗DNA很常见,那么我们之前的研究很可能出现了问题,某些被我们认为失踪了的基因可能实际上存在。现在或许应该再次看看迄今为止测序的基因组,以确定我们是否已经掌握了全貌。至少,我们应该警惕测序新基因组时暗DNA的可能性。


|| 摄影:Ullstein Bild / Getty


或者,有人可能会争辩说,如果暗DNA广泛存在,我们会早在之前的研究中就发现了;也许沙鼠和鸟类是极端情况,暗DNA的区域在其他生物体中的广泛程度要低得多。这也是个不同寻常的想法,因为它提出了另一个问题:是什么让沙鼠和鸟类与其他物种有所不同?回答这可能是理解暗DNA形成的关键。我们发现了另一个线索,也就是两组动物在每个物种的染色体的数量上显示出非常大的变化:例如,沙鼠中它的范围在22到68之间。这可能表明在它们的进化过程中,它们的染色体更易于破裂。染色体通常在性细胞产生期间破裂并重组,促进后代的遗传多样性。在这个过程中,会发生称为GC偏向基因转化(GC-biased gene conversion)的过程,导致基因向G和C的突变比A和T更多,使得G和C碱基在DNA的特定区域积累。这可能是染色体容易破损的物种中暗DNA产生的原因吗?我们不能确定,但这是可能的。

 

更加有趣的是:暗DNA何影响进化?大多数教科书都将进化描述为一个两步过程。首先,稳定的随机基因突变概率会引起生物体DNA的变异。然后,自然选择就像一个过滤器,决定传递哪些突变。这通常取决于它们是否具有某种优势,但并不是在进化过程中产生的所有东西都是适应性的。所以,自然选择是推动生物进化方向的唯一动力。但是当我们考虑到暗DNA的存在,就会发现事实并非如此。如果这些突变热点中包含的基因比其他基因突变的机会更大,它们将显示更多的自然选择行为的变异,因此它们所赋予的特征将会更快地演变。换句话说,暗DNA可能会影响进化的方向,为突变带来推动作用。我和我的同事认为,暗DNA中的突变速率可能非常快,以至于自然选择不能以通常的方式快速移除有害变体。如果一个物种面临新的环境挑战,这些基因甚至可能会在稍后才变得适应。

 

双重控制?(Dual control?)


突变驱动的进化(mutation-driven evolution)思想一直以来就是有争议的。自20世纪70年代中期以来,着名的分子生物学家Masatoshi Nei认为,进化背后最重要的推动力是在分子水平上发生的,即突变引起的DNA变异。如果没有这种自发的变化,自然选择就没有任何用处,使其成为次要的。暗DNA的发现为这种思维方式赋予了重量。当然,这并不是说突变与自然选择之间只能选择其一。例如在沙鼠中,许多暗DNA基因突变率的大幅上升可能会对物种的进化轨迹产生重大影响。尽管如此,一些选择也必须对这些基因起作用,否则突变会猖獗,形成一个没有功能基因的无意义区域,使得物种不会存活下来。

 

事实上,我们很难确定沙鼠是否从其突变热点总体上受益。你会期望它的极端突变成为一个问题,否则为什么像Pdx1这样的蛋白质在所有其他动物中实际上是相同的?但沙鼠的暗DNA可能会导致一些在正常情况下不会出现的适应症。也许这些使得它能够在营养不良的饮食和几乎没有水的状态下生存,因此在恶劣的沙漠环境中茁壮成长,并很少有竞争对手。另一方面,如果沙鼠吃营养丰富的食物,他们会发展成糖尿病并死亡。这可能意味着他们不得不生活在沙漠中。所以暗DNA可能既是他们的解放者,又是他们的狱卒。

 

总的来说,暗DNA的定义仍然是神秘的。但有一点是肯定的:它表明我们仍然有很多东西需要了解,比如基因组是如何在分子水平上进化的,以及这些过程如何引起地球上令人惊叹的生命多样性。


破译生命密码

耗资约27亿美元的人类基因组测序计划自2003年项目完成以来,技术取得了巨大的进步,使得测序更加快速和便宜。迄今为止,约15,000种的全基因组已被破译。而这只是一个开始,全基因组测序商业化的竞争非常激烈。在不久的将来,可能我们能够很自然的破译包括胎儿在内的个体的整个基因蓝图。

 

基因测序主要是推断出A,T,G和C这四个核苷酸或碱基的确切顺序并沿DNA链配对。Frederick Sanger在20世纪70年代设计的技术主要是手动的。 Sanger测序需要使用单链DNA作为模板,在试管中一次一个碱基地“互补”互补链,使用特殊的标记物以帮助读取序列。这是很准确的,但却非常耗时,一个熟练的工作人员仅能在一天中破译10,000个碱基对。人类基因组由大约32亿个碱基对组成。

 

现在我们的测序很大程度上是自动的,所以这个过程要快得多。首先将多个DNA链随机切成小片段 - 通常长度在100到150个碱基之间 - 然后对每个片段单独进行测序,并通过计算机程序将他们拼接在一起。但是有一个问题,这种二代测序技术并不能很好地破译仅由两个碱基(例如G和C)构成的DNA片段,因为我们难以判断重复的片段的重复规模,由于程序具有“从简性”,导致我们忽略了基因组测序中的大量DNA。

 

较新的测序方法更准确,可以处理长达数千个碱基长的DNA,减少了解码重叠区域的问题。 随着技术的迅速提高,暗DNA将会出现。 我们甚至可能发现我们认为已经解码的基因组中的新惊喜。


This article appeared in print under the headline "The hunt for dark DNA"

Adam Hargreaves is a biologist at the University of Oxford


懂点儿数学的医学生,与你分享有趣的AI故事~

点击蓝字关注这个神奇的公众号~

友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟