液体活检之ctDNA | 构建ctDNA肿瘤标记物数据库

2023-05-10 14:56:27




这是去年我在学校学习期间抽出业余时间,对我之前(16年中旬)在乐普医疗做实习生阶段的项目的一个复盘。我想这个复盘的意义也越来越明确,那就是数据是可以告诉我们知识的,尤其是你拥有可观的数据之后。


在研究任何一份数据之前,你必须明确两个指标:

对于医疗的数据而言,这两点尤为重要。首先,你的研究基准在哪里;其次,你的数据是否足够支持你论证结论,简言之,统计假设是否成立,是否可以回溯历史和支持推断。在今天,我们还得额外考虑,是否可以探索意料之外的知识。




简单理解下标题,生物标记物,ctDNA(circulating tumor DNA) 即游离于血液中的,由癌细胞释放出来的DNA 片段。这些片段上带有人体DNA在细胞癌变后,随机遭遇到的突变(variance)、甲基化(‘--H’-->‘--CH3’ )等的各种可能的修饰,据说蛋白质的修饰方式有400多种,当然,DNA至少也应该有这么多种不同的修饰。




介绍基础背景知识和研究背景,最后就是我在这件事情上的进度。



自然而言,谈到液体活检,我们不免感到陌生,可是实际上我们去医院都会有液体活检的流程,抽血化验,尿检,粪便检查,都是Liquid Biopsy。毕竟现在医院里都是基于分子实验室的配套设施在做这些检查,Biopsy 没问题。

由于ctDNA 是位于血液当中的cfDNA(Cell-free DNA)中的一部分,我们关注的就是血液中的 游离DNA,并且希望借助它们获得我们对身体各处细胞的情况进行探查。研究意义不明觉厉。




由于DNA的甲基化能够抑制基因在相应位置的表达水平,从而进一步抑制某些蛋白的表达水平,从而导致细胞发生不可修复的病变,比如癌变,细胞凋亡,细胞焦亡,细胞坏死等情况。所以,DNA的甲基化水平是我们额外关注的问题。如何检测呢?


目前,主流的几种检测手段。



既然意识到ctDNA的重要性,基于此,我们在现有大量样本的数据前提下,是否可以做出一些基础性的探索和尝试呢?一下,我的工作在准备数据和的阶段做了很多尝试,在算法和计算呈现上,也在不断尝试。



组学研究的整体思路。



我所使用到的各类组学研究支持的数据库。




各类组学分析的办法。




我的工作准备,数据获取部分。



数据重构,对10000样本的数据进行重构,规制数据到16种癌症中,用直方图体现每个甲基化位点在16种癌症患者的分布情况。直方图如下,这样的图一共有45万张。每张的数据位点有10000个。



上图说明:在甲基化位点为:cg00324097,癌症类型为brain(脑癌),基因3-Mar_LMNB1和其他15种癌症具有显著的表达差异。



相应采取的分类和聚类算法介绍(略)



通过简单统计就可以找到潜在的标记物(DNA片段),以在临床上验证过的SEPTIN9 基因(结肠癌ctDNA标记物片段)图中蓝色线段显著在结肠癌患者中高表达。



最后 感谢大家!也欢迎大家能够提供更多支持和建议!我想这个事情做起来还是很有意义的,至少可以帮助医生提供更多信息,早点诊断,癌症患者的预后会好很多,也会节约很多医疗和人力成本。我希望这个课题或者项目能够以数据库的方式,结合机器学习算法的办法,去不断优化,能够给我们国家的医疗提供相应的数据支持,对液体活检试剂盒的开发夜能够做出贡献。


也欢迎对此项目有兴趣的企业、医院、个人联系我,我愿意提供数据,算法支持,目前我在北京。




友情链接

Copyright © 2023 All Rights Reserved 版权所有 福建水产设备联盟