别瞎折腾kegg和geo了，老鸟教你怎么把数据变成果子-山东电子政务网

做生信这行十一年，我见过太多小白被KEGG和GEO这两个词绕晕。很多人觉得这两个是高大上的黑魔法，其实剥开外衣，全是琐碎的体力活加一点点运气。今天不聊虚的，就聊聊我最近帮一个做肿瘤方向的朋友处理数据时的真实经历。

上周三凌晨两点，我还在改一个硕士生的代码。他哭着说GEO数据下载下来全是空的，或者格式对不上。我打开他的浏览器一看，好家伙，直接用NCBI的默认搜索，连个过滤条件都没加。这种低级错误，我当年也犯过。GEO数据库里的数据，就像菜市场里的烂菜叶，你得自己挑。

首先说GEO。很多人不知道，GEO的数据其实很乱。同一个系列，可能有多个平台，多个样本。你如果不仔细看GDS或者GSE的注释，下载下来的矩阵文件可能根本对不上号。我有个客户，之前为了省时间，直接用了第三方工具一键下载，结果发现样本量少得可怜，根本做不出有意义的差异表达。后来我让他手动去GEO官网，用Series Matrix File下载，虽然麻烦点，但能看清每个样本的注释信息。这一步不能省，省了就是给后面埋雷。

再来说KEGG。KEGG通路分析，听起来很高端，其实核心就是映射。你把差异基因丢进去，它给你画个图。但问题在于，KEGG的通路定义有时候很老旧，跟现在的研究热点对不上。比如你研究免疫微环境，结果KEGG给你推了一堆代谢通路，这就很尴尬。我通常建议，不要只依赖KEGG，要结合Reactome或者WikiPathways一起看。而且，KEGG的API有时候抽风，我上次跑脚本，直接超时，气得我差点砸键盘。这时候，手动下载本地数据库，虽然占硬盘，但稳定啊。

说到价格，现在市面上有很多代做服务的，报价从几百到几千不等。便宜的几百块，可能就是套个模板，连基因名都校正不对。贵的几千块，至少能给你做个详细的注释和可视化。我一般建议，如果是学生党，预算有限，可以先自己学学R语言，用clusterProfiler包，虽然报错多，但学会了是一辈子的事。别总想着外包，外包出来的东西，答辩的时候老师一问细节，你就露馅了。

记得去年有个做乳腺癌的朋友，他的数据跑出来，KEGG显示PI3K-Akt通路显著富集。他高兴坏了，觉得找到了靶点。但我让他去查文献，发现这个通路在很多癌症里都富集，特异性不强。后来我们结合GEO里的另一个独立数据集验证，发现确实有差异，但程度没那么大。这说明什么？数据要交叉验证，不能只看一个平台的结果。GEO的数据虽然多，但批次效应严重，如果不做标准化，结果可能全是噪音。

还有个小细节，很多人忽略GEO数据的版本问题。GEO的数据会更新，今天的下载结果，明天可能就不一样了。我有个学生，半年前下的数据，现在重新下，发现样本注释变了。所以，一定要记录下载日期和版本号，不然复现的时候，你都不知道哪出了问题。

最后，说点实在的。生信分析不是点鼠标那么简单，它需要你对生物学有理解，对统计学有敬畏。KEGG和GEO只是工具，真正的价值在于你怎么解读这些数据。别指望一键出图就能发文章，那都是骗人的。你得深入进去，看每个基因的背景，看每条通路的逻辑。

我有时候也累，觉得这行太卷。但看到学生因为我的建议，终于跑通了代码，发了篇不错的文章，那种成就感，确实没法替代。所以，别怕麻烦，别怕报错。每一个错误，都是你进步的阶梯。

本文关键词：kegg和geo