液体活检之ctDNA | 构建ctDNA肿瘤标记物数据库

2023-05-10 14:56:27

这是去年我在学校学习期间抽出业余时间，对我之前（16年中旬）在乐普医疗做实习生阶段的项目的一个复盘。我想这个复盘的意义也越来越明确，那就是数据是可以告诉我们知识的，尤其是你拥有可观的数据之后。

在研究任何一份数据之前，你必须明确两个指标：

对于医疗的数据而言，这两点尤为重要。首先，你的研究基准在哪里；其次，你的数据是否足够支持你论证结论，简言之，统计假设是否成立，是否可以回溯历史和支持推断。在今天，我们还得额外考虑，是否可以探索意料之外的知识。

简单理解下标题，生物标记物，ctDNA（circulating tumor DNA) 即游离于血液中的，由癌细胞释放出来的DNA 片段。这些片段上带有人体DNA在细胞癌变后，随机遭遇到的突变（variance）、甲基化（‘--H’-->‘--CH3’ ）等的各种可能的修饰，据说蛋白质的修饰方式有400多种，当然，DNA至少也应该有这么多种不同的修饰。

介绍基础背景知识和研究背景，最后就是我在这件事情上的进度。

自然而言，谈到液体活检，我们不免感到陌生，可是实际上我们去医院都会有液体活检的流程，抽血化验，尿检，粪便检查，都是Liquid Biopsy。毕竟现在医院里都是基于分子实验室的配套设施在做这些检查，Biopsy 没问题。

由于ctDNA 是位于血液当中的cfDNA（Cell-free DNA）中的一部分，我们关注的就是血液中的游离DNA，并且希望借助它们获得我们对身体各处细胞的情况进行探查。研究意义不明觉厉。

由于DNA的甲基化能够抑制基因在相应位置的表达水平，从而进一步抑制某些蛋白的表达水平，从而导致细胞发生不可修复的病变，比如癌变，细胞凋亡，细胞焦亡，细胞坏死等情况。所以，DNA的甲基化水平是我们额外关注的问题。如何检测呢？

目前，主流的几种检测手段。

既然意识到ctDNA的重要性，基于此，我们在现有大量样本的数据前提下，是否可以做出一些基础性的探索和尝试呢？一下，我的工作在准备数据和的阶段做了很多尝试，在算法和计算呈现上，也在不断尝试。

组学研究的整体思路。

我所使用到的各类组学研究支持的数据库。

各类组学分析的办法。

我的工作准备，数据获取部分。

数据重构，对10000样本的数据进行重构，规制数据到16种癌症中，用直方图体现每个甲基化位点在16种癌症患者的分布情况。直方图如下，这样的图一共有45万张。每张的数据位点有10000个。

上图说明：在甲基化位点为：cg00324097，癌症类型为brain（脑癌），基因3-Mar_LMNB1和其他15种癌症具有显著的表达差异。

相应采取的分类和聚类算法介绍（略）

通过简单统计就可以找到潜在的标记物（DNA片段）,以在临床上验证过的SEPTIN9 基因（结肠癌ctDNA标记物片段）图中蓝色线段显著在结肠癌患者中高表达。

最后感谢大家！也欢迎大家能够提供更多支持和建议！我想这个事情做起来还是很有意义的，至少可以帮助医生提供更多信息，早点诊断，癌症患者的预后会好很多，也会节约很多医疗和人力成本。我希望这个课题或者项目能够以数据库的方式，结合机器学习算法的办法，去不断优化，能够给我们国家的医疗提供相应的数据支持，对液体活检试剂盒的开发夜能够做出贡献。

也欢迎对此项目有兴趣的企业、医院、个人联系我，我愿意提供数据，算法支持，目前我在北京。

大家在看

疑问|被地震“损毁”的九寨沟美景,还能恢复吗? 2023-05-10 14:56:27
蓝铜胜肽 2023-05-10 14:56:27
方案---酱油中的氮含量检测 2023-05-18 23:00:13
蛋白浓度检测之BCA法与考马斯亮蓝法区别 2023-05-18 23:00:13
什么是基因检测 2023-05-18 23:00:13
高敏感方法检测心肌肌钙蛋白临床应用中国专家共识(2014) 2023-05-18 23:00:13
如何选择合适的蛋白含量测定方法? 2023-05-18 23:00:13
饲料蛋白质及蛋白质含量测定的几种方法 2023-05-18 23:00:13
海水扫盲贴(器材篇) 2023-05-18 23:00:13
循环水养殖到底能不能投资? 2023-05-18 23:00:13