做生信踩坑实录：geo和tcga数据集应用了任何预处理步骤才敢用-山东电子政务网

做生物信息分析这几年，我见过太多新手拿着原始数据直接跑差异分析，最后结果出来一片红，连自己都不知道错哪了。这篇文不整虚的，就聊聊geo和tcga数据集应用了任何预处理步骤，才能让你从“垃圾进垃圾出”的泥潭里爬出来。

先说TCGA。很多人以为下载下来Fastq或者Htseq-count的表就能直接干活，天真。我去年带个实习生，直接拿Htseq-count的原始计数去跑DESeq2，结果发现样本间测序深度差异巨大，标准化做得一塌糊涂。记住，TCGA的数据虽然经过GDC标准化，但不同批次、不同测序平台（比如Illumina HiSeq 2000 vs 4000）带来的批次效应足以毁掉你的整个故事。预处理的第一步，不是看基因表达量，而是看样本的临床信息是否完整，以及是否有明显的离群样本。我用ComBat或者SVA做批次校正前，一定会先画PCA图，如果主成分完全被测序年份或医院分开，那不好意思，这数据你得慎重，或者干脆换策略。别为了凑数强行校正，那样只会掩盖真实的生物学差异。

再来说说GEO。这地方更是个大坑。GEO的数据格式五花八门，有的直接给GPL平台的CEL文件，有的给SummarizedExperiment，还有的只给个TXT表格连背景信息都没有。我有一次接了个急活，客户给的GEO数据是Affymetrix芯片，我没做RMA标准化，直接拿原始Intensity值去聚类，结果发现所有样本都聚在一起，因为不同芯片的杂交效率差异太大了。这时候，geo和tcga数据集应用了任何预处理步骤就显得至关重要。对于芯片数据，必须做背景校正、归一化，甚至要检查探针的注释是否更新，因为很多老探针在新基因组版本里已经废弃或映射到多个基因上了。

还有RNA-seq的数据。很多人忽略了一个细节：过滤低表达基因。别心疼那些只表达几个count的基因，它们大部分是噪音。我在处理TCGA数据时，会先过滤掉在所有样本中count总和小于10的基因，这样能大幅降低多重检验的负担，提高差异基因的检出率。另外，对于单细胞数据，虽然不在TCGA常规范围内，但逻辑相通。质控步骤不能省，线粒体基因比例高的细胞直接剔除，这是常识，但总有人因为懒而跳过，最后发现聚类结果全是死细胞。

说到这，不得不提一个心态问题。做生信最忌讳的就是“黑盒思维”。不要觉得用了某个R包或者Python脚本，结果就是真理。每一步预处理，你都要问自己：这一步改变了什么？是为了消除技术噪音，还是引入了新的偏差？比如做log2转换时，加1还是加0.5，看似微小，但在低表达区域影响巨大。我习惯在每一步预处理后都保存中间文件，方便回溯。有一次因为一个异常值导致模型不收敛，我就是靠回退到原始计数矩阵，一步步排查，才发现是某个样本的测序质量极差，被错误地包含在分析中。

最后，别迷信“标准流程”。不同的研究问题，预处理策略完全不同。如果你做的是标志物筛选，可能需要更严格的过滤；如果是做通路富集，对数据分布的要求可能稍微宽松。但无论如何，透明和可重复是底线。把你的预处理代码开源，把参数写清楚，这才是对自己负责，也是对科学负责。

总之，数据预处理不是走过场，它是你分析结果的基石。别等到审稿人问你“为什么这么处理”时，才支支吾吾说不出所以然。把基础打牢，比花哨的可视化重要一万倍。希望这些踩坑经验，能帮你少走弯路，早点发文章，早点下班。