跑崩了3次服务器后，我终于搞懂了GEO数据库和甲基化数据的坑-山东电子政务网

做生信分析这七年，我见过太多人拿着GEO数据库和甲基化数据两眼放光，觉得只要下载下来跑个差异分析就能发高分文章。说实话，这种想法太天真了。上周有个粉丝拿着他的PCA图来找我，红红的一片，样本之间根本分不开，他急得满头大汗问我是不是代码写错了。我一看，好家伙，原始数据都没质控，直接拿来做分析，这能不崩吗？

今天我就掏心窝子聊聊，怎么从GEO数据库和甲基化数据里挖出真金子，而不是废铁。

先说数据下载。很多人喜欢用GEO2R，省事，但坑也多。GEO数据库和甲基化数据的格式千奇百怪，有的平台是Illumina 450K，有的是EPIC，甚至还有些老旧的是27K。如果你不知道自己的芯片平台，直接下载，那后续的处理简直是灾难。我建议你先用GEO2R看看元数据，确认探针对应的基因和CpG位点。别嫌麻烦，这一步能省下你后面一周的debug时间。

再说说预处理。这是最容易被忽视，也最影响结果的地方。甲基化数据不像RNA-seq那样直接看表达量，它有个背景值的问题。很多新手直接用raw值做标准化，结果发现有些样本的甲基化水平超过1或者低于0，这明显是技术误差。我一般推荐用limma包里的normalizeBetweenArrays方法，或者针对芯片特性用ChAMP包。这里有个小细节，如果你用的是450K芯片，记得去掉那些交叉反应探针和SNP位点探针，不然你的差异位点全是假阳性。我有一次帮学生改代码，就是因为没过滤掉这些探针，导致最后出来的结果跟文献完全对不上，尴尬得我想找个地缝钻进去。

接下来是差异分析。这里有个误区，很多人觉得p值小于0.05就是差异位点。其实，甲基化水平的变化幅度（Delta Beta）同样重要。如果p值很小，但Delta Beta只有0.01，那生物学意义可能微乎其微。我习惯同时看p值和Delta Beta，通常设定p<0.05且|Delta Beta|>0.1或0.2。当然，具体阈值要看你的样本量和实验设计。

功能富集分析也不是随便选个GO就行。甲基化数据的功能注释比较复杂，因为一个CpG位点可能对应多个基因，或者位于基因间区。我推荐用GREAT或者ChAMP的后续分析模块，它们能更好地处理这种非编码区的调控关系。另外，别忘了结合表达数据。如果甲基化升高，表达量却也跟着升高，那很可能不是抑制关系，而是某种复杂的调控机制。这时候，单纯看甲基化数据就会得出错误结论。

最后，关于可视化。热图、火山图、曼哈顿图，这些是标配。但我觉得，画个基因组浏览器截图（IGV）或者甲基化轨迹图，更能直观地展示位点的具体位置。比如，某个差异位点正好在启动子区域，或者增强子区域，这比冷冰冰的数字更有说服力。

总之，GEO数据库和甲基化数据虽然强大，但水很深。别指望一键分析就能出结果，每一步都要仔细检查。如果你还在为数据质控头疼，或者不知道如何选择合适的标准化方法，欢迎随时来聊聊。别自己在那死磕，有时候换个思路，问题就解决了。

总结一下，做甲基化分析，质控是基础，标准化是关键，生物学意义是核心。别被工具迷了眼，要懂数据背后的逻辑。希望这篇干货能帮你在生信之路上少踩几个坑。