文章解读 | 基于细胞起源模式的新型癌症分类系统

2023-05-10 14:56:27

TCGA研究团队从染色体的非整倍性、DNA超甲基化、mRNA,miRNA表达水平、反相蛋白芯片(RPPA)数据5种平台对约10,000例样本33种肿瘤类型的样本集进行单平台聚类和整体聚类。大部分单平台聚类结果揭示出这种分类主要源于组织学或解剖学类型差异。而使用iCluster对多平台数据整体聚类则通过突变、染色体拷贝数变化、通路和微环境等共性特征进一步扩大了癌症亚型分类的范围。


这些共性特征对分子分类学的作用甚至超越了肿瘤阶段或起源组织的表型贡献。通过寻找解剖学相关的癌症类型之间的分子相似性,比如泛胃肠道癌、泛妇科癌、泛肾癌、泛鳞状癌症以及与干细胞特性相关癌症的泛癌症分析提供了基础,从而可能对治疗手段的发展提供帮助。

文章题目:Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer

研究人员:TCGA研究团队

发表时间:2018.04.05

期刊名称:Cell

影响因子:30.41


研究背景

许多种类的癌症基因组研究和分子分析表现出基因组缺陷,信号通路和致癌过程改变的巨大差异性。这种差异可能是内源因素,如生长和分化程序、起源细胞的表观状态和外源因素,如诱变剂、病原体和炎症的结合。早在2014年,TCGA报道了对12种癌症类型约3527例肿瘤样本的初步研究,从6种平台(DNA:外显子测序,DNA甲基化,拷贝数;RNA:mRNA和microRNA测序;蛋白质:肿瘤相关蛋白和磷蛋白检测)对肿瘤进行实验,提出了与现有的基于器官/组织学的病理学分类系统不同的基于分子特征的新型分类系统,并估计至少有十分之一的肿瘤患者因新分类方法而被重新定义类别。在此基础上,TCGA研究团队进一步对大型肿瘤数据库癌症基因组图谱(The Cancer GenomeAtlas,TCGA)中约10,000例样本,包括33种肿瘤类型的肿瘤数据集进行了整体的分子分析,从而提供了第一个区分TCGA中不同肿瘤分子起源的综合视图。

研究方法

样本选择

选取TCGA数据库中至少拥有以上五种平台数据中的一种数据的肿瘤样本,共11,286例。其中,有9759例拥有4种平台的完整数据:非整倍性、DNA甲基化、mRNA、miRNA;有7858例样本拥有RPPA蛋白数据。

共有33种肿瘤类型,包括血液和淋巴恶性肿瘤类:急性淋巴白血病(LAML),扩散大B细胞淋巴瘤(DLBC),胸腺瘤(THYM)。器官系统类有:妇科实体瘤:卵巢癌(OV),子宫内膜癌(UCEC),宫颈鳞状细胞癌和腺癌(CESC),乳腺癌(BRCA);泌尿类:膀胱尿路上皮癌(BLCA),前列腺腺癌(PRAD),生殖细胞肿瘤(TGCT),肾透明细胞癌(KIRC),肾嫌色细胞癌(KICH),肾状细胞癌(KIRP);内皮素类:甲状腺癌(THCA)和肾上腺皮质癌(ACC);核心胃肠道:食管癌(ESCA),胃腺癌(STAD),结肠腺癌(COAD),直肠腺癌(READ);发展性胃肠道:肝细胞癌(LIHC),胰腺腺癌(PAAD),胆管癌(CHOL);头颈部:头颈部鳞状细胞癌(HNSC);胸部:肺腺癌(LUAD),肺鳞状细胞癌(LUSC),间皮瘤(MESO)。中枢神经系统类有:成胶质母细胞瘤(GBM),脑低级胶质瘤(LGG)。软组织类有:肉瘤(SARC),子宫癌肉瘤(UCS)。神经嵴起源组织类:嗜铬细胞瘤和副神经节瘤(PCPG)。此外还有皮肤黑色素瘤(SKCM)和葡萄膜黑素瘤(UVM)。


分析方法

研究人员基于iCluster提出了一种新型泛癌症图谱的整体分析方法,通过4种不同的TCGA平台,从33种癌症类型中确定了28个不同的分子亚型。并证实了与常规临床上肿瘤分类系统的重要差异和一致性。使用了一种新的2D可视方法,TumorMap,来解释样本和iCluster结果之间的差异。


研究成果

1.按单个平台聚类

从5种平台各自结果来看,通过非监督聚类方式可以将样本划分至10~25个组别。研究人员观察到不同癌症类型被聚类到一组,同时同种癌症类型的样本分散到不同组别中。

对10,522例样本按照染色体非整倍性聚类,共聚成10类。AN1-5染色体改变数较多,AN7突变数目较少。在以13号染色体增加和18号染色体缺失为特征的AN2分类中,含有胃肠道肿瘤(COAD, READ, STAD)和食管癌的样本,这与2014年的研究结果一致。(图1A)

对10,814例样本按照DNA甲基化数据中3139个CpG位点进行聚类,共聚成25类。尽管已除去了已知的组织特异性DNA甲基化位点,仍能观察到来源于同一器官系统的肿瘤按照细胞类型聚在一起的趋势。比如鳞细胞癌(HNSC, ESCA, LUSC和CESC)聚类到METH1-2组中,腺细胞癌中胃肠道腺癌(ESCA, STAD, COAD, READ)聚类到METH10-13组中。这和非整倍染色体结果也一致。(图1B)

对10,165例样本中mRNA表达量进行聚类,共聚成25类。同样观察到肿瘤类型是很强的分类驱动因素。鳞状癌(BLCA, CESC, ESCA, HNSC, LUSC)被聚类到一起。具有组织或器官相似性,或位置相近的癌症类型也被聚到一起。比如神经内分泌和胶质瘤(GBM, LGG, PCPG);皮肤和眼的黑色素瘤(SKCM, UVM);肾透明细胞癌和肾状细胞癌;肾上腺皮质癌和肾嫌色细胞癌;肝细胞癌和胆管癌;胃肠道组(COAD, READ, 非鳞状ESCA, READ, STAD);消化系统组(PAAD, STAD, 部分ESCA);血液和淋巴癌组(LAML, DLBC, THYM),肺癌组(LUAD, LUSC)。(图1C)

对10,170例样本中miRNA表达量聚类,共15类。其中有6类为单癌症类型。剩下9类每一类代表一种癌症型的混合。比如MIR2富集了鳞状癌;MIR11为泛肾癌;MIR6为泛胃肠癌组。(图1D)

除急性淋巴白血病(无蛋白表达数据)外的32种肿瘤7858例样本的蛋白质表达数据共聚成10类。P1(GBM, LGG)、P2(DLBC, SARC, PCPG, UCS, THYM, 转移性SKCM)与高EMT特征的间叶细胞状肿瘤类型大部分一致。与其他平台结果类似,来自相关器官系统的样本被聚类到一起:妇产科类(BRCA-Luminal, UCEC, OV);P6为泛肾癌;P8为泛胃肠癌组。(图1E)

图1 33种类型的10,000例TCGA肿瘤样本基于各平台数据的分类


2.多平台的整体聚类分析

研究人员使用2014年发表的聚类分配算法(COCA)来评估这5种平台数据聚类结果之间的重叠。泛胃肠道癌(COAD, READ, STAD, ESCA腺癌)在mRNA、miRNA、RPPA平台数据的聚类中都被划分到一起,但在DNA甲基化平台中被分成不同类型。泛鳞状癌(LUSC, HNSC, CESC, ESCA, BLCA)在其他平台被聚到一起,在非整倍型和DNA甲基化两个水平又被进一步划分。在泛妇科癌症(BRCA, OV, UCEC, UCS)中,RPPA数据说明OV和UCEC在蛋白表达水平相似,然而在mRNA、miRNA和DNA甲基化数据中却是按照器官位置被分组。值得注意的一点是,13%的BRCA亚型因为mRNA和DNA甲基化数据的不同而从其他BRCA中区分开来。(图2A)

图2 多平台分类揭示了跨肿瘤类型下基因组、表观组、转录组之间的相似性和差异性

尽管COCA方法在其他平台结果有高度的一致性,但是对于非整倍性来说,约三分之一的样本只有少量甚至没有非整倍染色体事件发生。为了补充COCA结果,研究人员又对9759例拥有4种平台完整数据的样本(CNV, DNA甲基化, mRNA,miRNA)使用iCluster进行分子亚型综合分析进行补充,共聚出28类。通过对不同平台在iCluster潜在变量的特征权重累加,可以得到每个平台数据在聚类中的相对贡献值。可以看到,拷贝数变异在整体聚类分析中占了约47%的贡献。转录组(mRNA, miRNA)占42%,DNA甲基化占11%。(图2B)

从聚类结果来看,对于16个肿瘤类型,有超过80%的样本聚在同一个Cluster中。其中8个是单肿瘤类型,其他Cluster包括来自相似或相关细胞或组织的肿瘤:如C28为泛肾癌,C15为皮肤和眼睛黑色素瘤等等。还有6种肿瘤类型被聚到了多个iCluster中。

泛胃肠道队列可以根据DNA甲基化水平的差异分为三个iCluster:C1、C4和C18。C1主要包括超甲基化的EBV相关肿瘤,C18大部分则由MSI性肿瘤如STAD和COAD构成,C4主要由CIN(染色体不稳定)性肿瘤(如COAD和READ)组成。泛鳞癌队列聚成了C10、C25、C27三个iCluster,而且基本所有的CESC都在C27中,LUSC都在C10中,这些泛鳞癌iCluster均拥有3q染色体扩增的分子特征,同时C10包括了9p染色体缺失,C25包括了11号染色体扩增的特异性特征。

在混合肿瘤类型的iCluster中,C7、C2和C13都是主要根据染色体拷贝数来区分定义的。C7主要包括9号染色体缺失的肿瘤,C2:BRCA主要包括ERBB-2扩增的肿瘤如BRLA、BLCA和STAD,C13主要含有如BRCA-basal、UCEC(高染色体拷贝数亚型)等高度非整倍体肿瘤混合构成。C3和C20主要由非肿瘤细胞组分的免疫或基质分子特征来区分定义。研究人员对iCluster的非肿瘤成分进行了进一步研究,基于DNA甲基化数据,他们用1减去肿瘤纯度和白细胞比例作为基质的比例。其中C20的中间基质比例最高,然后是C14、C10、C3(图3A)。这些iCluster都表现出更高的白细胞比例(图3B)。C3主要包含间充质瘤,C20主要是混合性的上皮肿瘤。

图3 iCluster样本间的肿瘤微环境细胞组成

通过计算每个iCluster的优势癌症类型比例并将其与平均的iCluster轮廓宽度(描述分子异质性)进行比较来描述各个iCluster的组成和异质性(图2C)。结果发现,7个泛器官系统中有6个具有与单个癌症型的iCluster相近的分子异质性范围。由一个共同的特定染色体改变的iCluster(如C13,chr8缺失)往往构成了多种肿瘤类型,并且最低的轮廓宽度说明具有大量的分子异质性。

研究人员使用桑基图来进一步可视化iCluster各分类、癌症种类和器官系统之间的关系(图2D),泛肾癌基本全部映射到C28类。而属于鳞状细胞癌的宫颈癌则使得泛妇科癌和泛鳞癌重叠。这表明iCluster受到个体癌细胞起源类型的强烈影响。

 3.器官系统的肿瘤地图(Tumor Map)

研究人员计算了所有样本对在iCluster潜在变量之间的欧几里得距离,并使用TumorMap将距离映射到2D平面上,揭示了iCluster、泛癌症亚型和器官系统之间的关系(图4A、B、C)。肾肿瘤分为KICH、KIRC和KIRP,其中CpG岛甲基化肾细胞癌亚型(RCC-CIMP)位于泛胃肠道癌附近,这与它们DNA超甲基化平台数据有关(图4D)。泛妇科亚型有部分重叠(图4E),并广泛分布在各个iCluster中。泛胃肠道癌分子亚型(图4F)则分别代表MSI肿瘤、超突变snv肿瘤、基因组稳定肿瘤、 CIN肿瘤和EBV相关胃癌。

TumorMap图表明,即使在Map生成过程中并没有使用组织病理学信息,但具有相似病理分类的肿瘤仍倾向于聚到一起(图5A)。这个结果突出说明了细胞起源对癌症中观察到的分子模式的影响,并且进一步对泛鳞状癌亚型分析提供支持。在TumorMap上基于Thorsson等人(2018年)发现的免疫信号亚型分类也得到了类似结果,这指示了iCluster、组织病理学信息和免疫浸润类型之间的关系(图5B)。泛鳞状癌拥有共同的创面愈合和gamma干扰素主导的免疫信号。

癌症干细胞作为一种治疗耐药性的可能机制,同时也是亚群重新生成新转移灶能力的重要驱动因素。 基于mRNA表达和DNA甲基化数据的两个干细胞指数揭示了TumorMap中不同区域上高干性肿瘤的聚集现象(图5C、D)。TGCT(生殖细胞肿瘤)表现出较强的两类干细胞特征,而其他肿瘤如LAML(急性淋巴白血病)则只有基于mRNA的强干性特征。

图4 iClusterTumorMap结果 

图5 iCluster TumorMap中的样本特征

4.iCluster的变异性评估

研究人员统计了iCluster的突变负荷和signature特征。各种体细胞的突变负荷在不同iCluster中各不相同,黑色素瘤和肺腺癌、泛胃肠道癌和泛鳞状癌的突变频率相对较高(图6A)。拥有最多癌症类型组成的两个iCluster(C3和C20)内突变频率差异很大。各个iCluster间的突变signature差异也较大。预期signature比较明显,比如C15中的UVB signature,C14(肺腺癌)中的吸烟signature,C8(子宫内膜癌)和C4(泛胃肠道癌)中超突变样本的POLE突变(图6B)。于此同时,还发现泛器官组如C18表现出已知的如CpG、毒素和未知的突变signature的富集。这可能和这个组中错配修复缺陷型肿瘤的高占比有关。 

图6 iCluster突变模式 

5.泛癌症iCluster的亚型通路特征

研究人员比较了其他文献中提到的基于PARADIGM的约19,000个通路特征、基于表达分数的22个基因程序和18条典型的靶向通路,来探究这28个iCluster中的通路特点差异(图7)。

C28(泛肾癌)具有高缺氧信号、视网膜代谢、低增殖、PPAR-RXR通路和包括免疫检查点PD-1和CTLA4的免疫信号。然而另外的肾癌如KICH(肾嫌色细胞癌)和ACC(肾上腺皮质癌)被共聚类到C9中,且在几乎所有通路中都表现出低活性,这两种癌症类型都在染色体拷贝数分类中被分类为亚二倍体型。

C10、C25、C27等泛鳞状癌iCluster尽管癌症类型组成差异很大,但是在通路特征上具有许多相同之处。均具有高水平的鳞状细胞相关信号、增殖相关通路,较高的缺氧、免疫相关信号及基础信号。

泛胃肠道癌(C1、C4、C18)都具有相对较高的增殖信号,但也会存在一些通路特征差异性。如其中C4的免疫相关信号较低,而C1、C18较高。此外,拥有32%泛胃肠道癌样本的混合iCluster C20也表现出很强的免疫相关信号。细胞粘附信号在C4、C18、C20中较高,但在C1中较低。

含有较多妇科癌症类型样本的混合性iCluster C13和C20都表现出了高基础信号和增殖信号。尽管分布在不同iCluster中,卵巢癌、子宫内膜癌、乳腺癌和宫颈癌等共有一些相似的通路,包括高增殖、DNA修复和基础信号通路等。尽管在乳腺癌的两个iCluster C2和C19中,雌激素信号基因程序GP7很高,但在其他妇科癌症中表现较低。

图7 通路特征确定PanCancer-33的亚型


文章总结

比起2014年12种癌症的泛图谱研究,本次研究的数量和种类都扩大近3倍。本文首先通过对来自5个不同平台的肿瘤数据分别进行无监督聚类,揭示了10,000例肿瘤样本下与经典肿瘤分类系统迥异的5种不同纬度的分子特征子集。比起其他4种聚类来说,染色体的非整倍性纬度是结果一致性最弱的,原因是约三分之一的肿瘤几乎没有拷贝数的变异。研究人员使用COCA来探究跨平台的聚类关系,使用iCluster来将多平台的分子数据同时整合到最终28个iCluster中。

这些iCluster中约三分之一是单肿瘤类型,三分之二表现出不同程度的异质性。最多的C20甚至包含了25种癌症类型。按照来源细胞或器官系统位置,这些肿瘤类型可以分为4类:泛胃肠道癌(pan-GI)、泛妇科癌(pan-gyn)、泛鳞状癌(pan-squamous)、泛肾癌(pan-kidney)。这种iCluster的基于多平台分类系统具有潜在的临床应用价值,通过更好地定义恶性肿瘤这一高度多样化群体的起源组织,可能会进一步改善1%-3%的未知原发性癌症病人的治疗方案。

TumorMap的可视化展示了4类起源模式的空间共定位,也揭示了尽管iCluster分类受到起源模式的强烈影响,但仍然存在着内部的异质性。通过对PARADIGM通路特征、典型通路和基因程序的鉴定,发现C3和C20都具有强烈的免疫相关信号特征,这预示着在临床上可能可以针对这些iCluster肿瘤使用特定的免疫疗法。C3、C20、C14、C10共有的JAK2/STAT通路表明不同肿瘤使用JAK-STAT治疗的可能性。 

随着越来越多的临床药物开始以癌症驱动通路为靶点(ALK, EGFR, ERBB2, ERα, KIT, BRAF, ABL1),。许多研究如NCI-MATCH研究正在调查这种新方法的临床可行性和有效性。通过考虑突变和致癌信号通路、肿瘤的组织或细胞来源等对肿瘤做综合的分子剖面分析,对改善篮式研究(不同癌症共有的分子靶点研究)的设计有着可见帮助。

 

小编评论

传统的癌症分类主要基于组织学或解剖学特征。这项研究通过使用对多种类型分子数据聚类分析的方法,从分子的角度对癌症分类和亚型进行了定义。这种寻找分子共性的分类可以预见能以分子机制为驱动的治疗方法带来广阔前景,这也与如今正热的精准医疗思想相一致。综合聚类的研究方法也为我们寻找新的分子机制或靶点提供了启示。


参考文献

[1] The Cancer Genome Atlas. Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer[J]. Cell, 2018.


本篇转载自: TumorDecoder


点击阅读原文获取文献



【近期热文】

肿瘤深度分析 | 不仅仅是高级,更是结合表型的专属分析

单细胞RNA-Seq产品全新升级,再不来就晚了

免费微课 | 三代测序UMI定量转录组

注意!小RNA定量分析不准确!丢失的数据该如何找回?

为长江江豚正名 | 南京师大与华大基因等联合完成江豚基因组

梅花香自苦寒来 | 蔷薇科李亚科首个测序物种




请继续关注“华大科技BGITech”公众号,

科技君将一如既往地为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!

友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟