第三十七章孟德尔随机化_走进生物学

随机化采样完成之后，接下来就是关键的差异基因分析步骤了。陈飞使用了R语言中的“DESeq2”包，这是RNA-seq数据分析中非常常用的工具包，专门用来识别差异表达基因。

作为一个苦逼的生物领域搬砖人，陈飞甚至都没有下载过R语言的软件，但是系统君的实验思路写的非常认真，直接让他去参考转码人救星CSDN，

在指导下，陈飞很快安装好了R语言以及RSstudio。

一切准备就绪，可以开大了！

参考着github上一些前人的代码，一顿CtrlC，CtrlV之后，陈飞吭吭哧哧地写完了所有代码。在经历了python界面一次一次error，debug之后，他终于能够让代码运行了。

“看看这数据，”陈飞盯着屏幕上弹出的结果，目光锐利。

经过多次随机化采样和差异基因分析，他成功筛选出了肝细胞癌中显著异常表达的基因。

其中，有几个基因的差异尤为显著，它们在癌症样本中被高度激活，而在健康对照组中几乎没有表达。

这种差异引发了陈飞的浓厚兴趣：“这些基因很可能就是肝细胞癌的核心驱动因素。”

他将这些基因一一标记出来，接下来，他还需要进一步确认这些基因的作用。

第四步：基因调控网络的构建

光有差异表达的基因还不够，陈飞知道，基因之间并不是孤立的，它们通过复杂的调控网络来共同发挥作用。

因此，系统让陈飞构建一个基因调控网络，以便找出那些真正推动肝细胞癌发展的“核心节点”。

基因调控网络可以看作是基因的“社交圈”，某些基因在网络中扮演着关键角色，它们通过调控其他基因的表达，最终影响疾病的发展。

找出这些关键基因，就像抓住了疾病的“领袖”。

“我们要找的就是这些领袖基因。”陈飞说着，将所有筛选出的差异基因输入到网络分析软件中。