别瞎搞了！geo 数据affy rma 分析翻车实录，老鸟教你怎么从坑里爬出来-山东电子政务网

手里攥着一堆 GEO 芯片数据不知道怎么下手？跑完 RMA 标准化结果全是噪音，画出来的图根本没法发文章？这篇东西不整虚的，直接把你从报错和无效结果的泥潭里拽出来，告诉你怎么用最笨但最稳的办法搞定那些该死的 Affymetrix 探针。

说实话，干这行七年，我见过太多新手拿到 GEO 数据就兴奋得睡不着觉，下载下来直接扔进 R 里跑个 Affy 包，完事儿一看 PCA 图，样本全挤一块儿去了，或者分组完全乱套。这时候心态崩了，到处问人，其实问题多半出在第一步就没走对。GEO 数据不是拿来就能用的，它里面藏着不少坑，特别是那些老掉牙的 Affymetrix 平台数据，探针映射关系复杂得很，稍不注意你就在分析垃圾数据。

先说下载。别光盯着那个 Series Matrix 文件看，觉得省事。很多大佬喜欢直接下 CEL 文件，这才是原始数据。你要是为了偷懒直接下处理过的表达矩阵，那后续的差异分析基本就是瞎扯。为什么？因为不同批次的数据，标准化方法不一样，混在一起分析，批次效应能把你逼疯。我有个客户，之前为了赶时间，直接从 GEO 上扒了几个不同年份的矩阵拼起来做差异，结果 P 值显著的一堆基因，最后去查文献发现全是假阳性，因为那些基因在不同芯片上的探针根本就没映射好。

再说说 RMA 标准化。很多人觉得 Affy 包里的 rma() 函数一键搞定，多方便。确实方便，但前提是你的 CEL 文件质量得过关。你得先看看 QC 图，Boxplot 和 Density plot 得看着顺眼。如果有些样本的分布跟其他样本差太远，别犹豫，直接删掉或者重做。别想着用算法去“修”它，算法救不了烂数据。我见过有人强行把几个离群点拉进来，最后做出来的热图像马赛克一样，审稿人看一眼就直接拒稿，连修的机会都不给。

还有个大坑，就是探针到基因的映射。Affymetrix 的探针设计很老旧，一个基因可能对应好几个探针，甚至有的探针会交叉杂交。你要是直接用默认的映射表，可能会把信号搞混。建议你自己去查一下最新的 annotation 包，或者用 biomaRt 这种工具重新映射一下。虽然麻烦点，但能保证你后面找的靶点是对的。别为了省那点时间，最后发现你分析的基因在人体里根本不存在，或者对应错了物种，那真是哭都找不到调。

另外，批次效应处理也是重灾区。如果你合并了多个 GEO 数据集，一定要用 ComBat 或者 sva 包去校正。别以为做了 RMA 就万事大吉了，RMA 只是标准化，不能消除批次带来的系统性偏差。我见过不少人，做完 RMA 直接进 limma 做差异，结果发现组间差异全是批次效应造成的，这就很尴尬了。校正的时候要注意，分组信息一定要准确，别把校正后的数据又混进去，那就前功尽弃了。

最后，别迷信自动化流程。虽然有很多现成的 pipeline，但每一步的结果你都得心里有数。比如探针过滤，低表达的探针一定要去掉，不然噪音太大。还有多重检验校正，FDR 阈值设多少，得看你的研究目的，别死守 0.05。有时候为了找潜在靶点，放宽到 0.1 也能接受，关键是要在文章里说清楚你的逻辑。

总之，GEO 数据分析这事儿，细节决定成败。别想着抄代码就能出结果，得真正理解每一步在干什么。遇到报错别慌，多看日志，多查文档。要是实在搞不定，找个懂行的帮你看一眼，比你自己瞎琢磨强得多。希望这些大实话能帮你少走点弯路，早点把文章投出去。

本文关键词：geo 数据affy rma