做geo数据去除批次效应别瞎搞，老生物信息学家的血泪教训-山东电子政务网

最近好多做单细胞或者转录组的朋友跑来问我，说合并了几个GEO数据集，结果PCA图里样本全按来源分开了，完全看不出生物学差异。我一看他们的图，心里就咯噔一下，典型的没处理好批次效应。今天不整那些虚头巴脑的理论，直接聊聊我在一线做分析时遇到的坑，以及怎么真正有效地处理geo数据去除批次效应。

先说个真事。去年有个学生找我救火，他合并了三个不同实验室做的乳腺癌芯片数据，想用DESeq2直接跑差异分析。结果呢，前五个差异基因全是housekeeping genes，什么GAPDH、ACTB，根本不在我们的关注点上。后来我帮他重新做了geo数据去除批次效应，发现真正的差异通路全在免疫反应里。这差别太大了。很多新手觉得只要把数据拼一起，软件自动就能搞定，这是最大的误区。

批次效应这东西，比你想的复杂。它可能来自实验时间、操作员、甚至测序仪的批次。你在处理geo数据去除批次效应的时候，首先要确认这个效应是不是真的存在。别急着上ComBat或者Harmony，先画个PCA看看。如果样本在PCA上明显聚类，那说明批次效应确实干扰了你的结果。这时候如果你强行忽略，后面的差异分析、聚类分析全都会偏。

我见过太多人用ComBat硬去，结果把生物学信号也去没了。为什么？因为ComBat假设批次效应是加性的，而且独立于生物学变量。但在实际数据中，比如你的对照组都在一个批次，实验组在另一个批次，这时候ComBat就会把组间差异当成批次效应给去掉。这就是所谓的“过度校正”。所以，在做geo数据去除批次效应之前，一定要检查你的实验设计。如果批次和分组完全共线性，那神仙也救不了你，只能重新做实验或者找其他公共数据补充。

除了ComBat，现在单细胞领域流行用Harmony或Seurat的Integrate。这些方法基于降维空间，效果通常比传统方法好。但要注意，它们对初始聚类很敏感。如果你初始聚类就错了，后续的去批次也会歪。我的建议是，先用简单的PCA看批次，再决定用哪种方法。对于芯片数据，limma的removeBatchEffect函数还是稳的，因为它能保留线性模型的结构。

还有个细节很多人忽略：归一化。在做geo数据去除批次效应之前，确保你的数据已经正确归一化。比如RNA-seq数据用TMM或DESeq2的median of ratios，芯片数据用RMA。如果归一化没做好，批次效应会掩盖在表达量差异里，去不掉。

最后，验证很重要。去完批次后，别只看PCA。要看已知标记基因的表达分布，看差异基因的通路富集是否合理。如果去批次后，样本间的生物学重复相关性变高了，且已知标记基因依然区分不同细胞类型或状态，那才算成功。

总之，处理geo数据去除批次效应不是调个参数就完事，需要结合实验设计和数据特性。别指望一键解决，多检查，多验证。如果你还在为批次效应头疼，或者不确定你的数据该怎么处理，欢迎随时来聊。我们可以一起看看你的数据，找找最适合的方案。毕竟，数据分析这事儿，细节决定成败。