GEO提交数据时基因组填什么,老鸟手把手教你避坑,别再把hg19和hg38搞混了

GEO提交数据时基因组填什么,老鸟手把手教你避坑,别再把hg19和hg38搞混了

做生物信息的朋友,谁没在GEO提交数据时抓狂过?

特别是那个“Genome”选项。

每次填这儿,我都得停半天。

填错?后果很严重。

轻则被编辑打回重填,耽误时间。

重则导致下游分析全乱套,别人引用你的数据,结果比对不上,那真是社死现场。

今天我就掏心窝子聊聊,GEO提交数据时基因组填什么,到底该怎么选。

先说结论:别瞎猜,看你的原始数据来自哪里。

我见过太多新手,手里拿着hg19的bam文件,非要选hg38。

为啥?因为觉得hg38听起来更“新”、更“高级”。

大错特错。

基因组版本必须和你的比对参考一致。

如果你是用hg19做的比对,那必须填hg19。

不然人家下载你的数据,用hg38去重新比对,那reads对不上,数据就废了。

这里有个真实的翻车案例。

去年有个哥们,发了篇挺不错的文章,数据也上了GEO。

他用的细胞系是K562。

他在提交时,脑子一抽,选了GRCh38。

但他用的参考基因组其实是UCSC的hg19。

结果呢?

有个做单细胞测序的大牛,下载了他的bulk RNA-seq数据。

想拿来做去批次化,顺便看看自己的scRNA-seq能不能映射过去。

结果一映射,发现大部分reads都比对不上。

那大牛直接在Twitter上吐槽,说这数据质量不行。

其实数据没问题,是基因组版本搞错了。

这哥们后来不得不发个更正说明,尴尬不?

所以,怎么判断该填啥?

第一步,看你的pipeline。

如果你用的是Tophat2、HISAT2这些老工具,默认大概率是hg19。

如果你用的是STAR、HISAT2的新版本,或者Salmon、Kallisto这些准定量工具,很多默认指向GRCh38。

第二步,看你的参考基因组文件头。

打开你的ref.fa或者genome.fa文件。

第一行通常会有描述信息。

里面会写着chr1、chr2...还是1、2...

如果是chr1开头,通常是UCSC格式,对应hg19或hg38。

如果是1开头,通常是Ensembl格式,对应GRCh37或GRCh38。

这点特别重要,千万别看走眼。

第三步,查文献。

看看你参考的那篇论文,或者你用的软件文档。

比如,ENCODE项目的数据,早期多是hg19,后期逐渐转向GRCh38。

如果你做的是小鼠数据,那就更简单。

mm10是主流,mm9虽然老但还有人用。

别填错成人类基因组,那简直是灾难。

还有个坑,就是版本号的细微差别。

比如GRCh37和hg19,其实是一回事。

但在GEO的下拉菜单里,它们可能被分开列着。

这时候,建议填最通用的那个。

通常填GRCh38或者hg38比较稳妥,毕竟现在新项目多用这个。

但如果是老数据,或者为了和公共数据库的历史数据对齐,填hg19也没问题。

关键是:一致性。

你自己要清楚,你用的到底是哪个版本。

别到时候编辑问你,你支支吾吾答不上来。

最后,再啰嗦一句。

提交前,一定要再检查一遍。

特别是那些混合了不同物种或者不同版本的数据,一定要标注清楚。

别偷懒,别侥幸。

毕竟,数据共享是为了科学进步,不是为了给人添堵。

希望这篇分享,能帮你省下不少改数据的熬夜时间。

GEO提交数据时基因组填什么,其实没那么难,只要细心点,多对照下参考文件,就能避免大部分错误。

记住,真实经验比任何教程都管用。

祝大家提交一次过,早日见刊!