做生信这几年,最烦的就是导师或客户甩过来一句:“帮我在GEO里找个单细胞数据。”
真的,听到这句话我头都大。
GEO数据库里单细胞数据多如牛毛,但质量参差不齐。很多人直接搜“scRNA-seq”,出来的结果几千条,根本没法看。今天我就把压箱底的实操经验掏出来,不整那些虚头巴脑的理论,直接讲怎么落地。
首先,你得明白一个真相:GEO本身不是专门存单细胞数据的仓库。它是个大杂烩。所以你直接搜关键词,效率极低。
我一般分三步走。第一步,关键词组合拳。
别只搜scRNA-seq。你要结合你的研究物种和疾病。比如你想找肺癌的单细胞数据,你就搜“lung cancer single cell”或者“NSCLC scRNA”。
注意,这里有个坑。很多文章标题里写了单细胞,但附件里可能只是bulk数据,或者是验证集。所以,一定要看Series Matrix File或者Raw Data的格式。如果是.h5ad或者.h5文件,那大概率是单细胞。如果是.txt或.csv,还得再确认下。
第二步,利用GEO的筛选功能。
在搜索结果页面,左侧有个“Data sets”栏目。点进去,找到“Single-cell RNA sequencing”这个选项。这一步能过滤掉80%的噪音数据。
但别高兴太早,剩下的数据里,还有很多是早期版本,或者样本量极小的。这时候,就要看“Sample count”和“Series count”。
我有个朋友,之前为了找个胰腺癌的数据,找了半个月。最后发现,很多热门数据集都被做烂了。他后来换了个思路,搜“pancreatic islet”,结果找到了几个高质量的原始数据。
这里插一句,找数据的时候,别光看下载量。下载量高不代表质量好,可能只是大家都拿来当教程。你要看最近两年发表的,或者高影响因子的文章配套数据。
第三步,也是最关键的,看补充材料。
很多单细胞数据,作者会把原始计数矩阵放在Supplementary Table里。虽然GEO上有,但有时候Supplementary里的格式更友好,或者包含了更详细的注释信息。
我遇到过一次,GEO上的元数据标注错误,细胞类型标反了。后来我去看文章正文的Figure 2,才发现真正的细胞聚类情况。所以,别懒,一定要去读文章。
说到这,可能有人问,有没有现成的工具能帮我在geo数据库怎么找单细胞数据更精准?
有的。比如GEO2R,但那个太基础。你可以试试用R语言的GEOquery包,写个简单的脚本,批量下载元数据,然后过滤掉那些没有cell type annotation的。
不过,对于新手来说,手动筛选虽然慢,但最稳妥。
再分享个真实案例。去年有个学生找我,说要做阿尔茨海默病的研究。我让他去GEO搜“Alzheimer's single cell”。他回来跟我说,全是小鼠数据,没人要。
我就让他改关键词,搜“human brain single cell”,然后加上“Alzheimer's”。结果,他找到了一个包含5万多个细胞的数据集,而且作者已经做好了质控。这比他自己从头开始处理快多了。
这里要注意,下载数据后,别急着分析。先看看UMAP图,看看细胞分布是否合理。如果所有细胞都挤在一起,那这数据可能有问题。
另外,关于隐私问题。有些敏感疾病的数据,可能无法公开获取。这时候,你得去联系通讯作者,申请数据。虽然麻烦,但有时候这是唯一途径。
总之,在geo数据库怎么找单细胞数据,核心就是“耐心”和“细致”。别指望一键出结果。多花点时间看元数据,比后面花几天调参要划算得多。
最后提醒一句,引用数据的时候,一定要核对文章信息。别因为偷懒,把别人的成果当成自己的灵感来源,那是学术不端。
希望这些经验能帮你少走弯路。如果有具体数据找不到的,可以在评论区留言,我看看能不能帮你想办法。毕竟,大家都不容易,能帮一把是一把。