做生物信息的朋友,谁没在GEO提交数据时抓狂过?
特别是那个“Genome”选项。
每次填这儿,我都得停半天。
填错?后果很严重。
轻则被编辑打回重填,耽误时间。
重则导致下游分析全乱套,别人引用你的数据,结果比对不上,那真是社死现场。
今天我就掏心窝子聊聊,GEO提交数据时基因组填什么,到底该怎么选。
先说结论:别瞎猜,看你的原始数据来自哪里。
我见过太多新手,手里拿着hg19的bam文件,非要选hg38。
为啥?因为觉得hg38听起来更“新”、更“高级”。
大错特错。
基因组版本必须和你的比对参考一致。
如果你是用hg19做的比对,那必须填hg19。
不然人家下载你的数据,用hg38去重新比对,那reads对不上,数据就废了。
这里有个真实的翻车案例。
去年有个哥们,发了篇挺不错的文章,数据也上了GEO。
他用的细胞系是K562。
他在提交时,脑子一抽,选了GRCh38。
但他用的参考基因组其实是UCSC的hg19。
结果呢?
有个做单细胞测序的大牛,下载了他的bulk RNA-seq数据。
想拿来做去批次化,顺便看看自己的scRNA-seq能不能映射过去。
结果一映射,发现大部分reads都比对不上。
那大牛直接在Twitter上吐槽,说这数据质量不行。
其实数据没问题,是基因组版本搞错了。
这哥们后来不得不发个更正说明,尴尬不?
所以,怎么判断该填啥?
第一步,看你的pipeline。
如果你用的是Tophat2、HISAT2这些老工具,默认大概率是hg19。
如果你用的是STAR、HISAT2的新版本,或者Salmon、Kallisto这些准定量工具,很多默认指向GRCh38。
第二步,看你的参考基因组文件头。
打开你的ref.fa或者genome.fa文件。
第一行通常会有描述信息。
里面会写着chr1、chr2...还是1、2...
如果是chr1开头,通常是UCSC格式,对应hg19或hg38。
如果是1开头,通常是Ensembl格式,对应GRCh37或GRCh38。
这点特别重要,千万别看走眼。
第三步,查文献。
看看你参考的那篇论文,或者你用的软件文档。
比如,ENCODE项目的数据,早期多是hg19,后期逐渐转向GRCh38。
如果你做的是小鼠数据,那就更简单。
mm10是主流,mm9虽然老但还有人用。
别填错成人类基因组,那简直是灾难。
还有个坑,就是版本号的细微差别。
比如GRCh37和hg19,其实是一回事。
但在GEO的下拉菜单里,它们可能被分开列着。
这时候,建议填最通用的那个。
通常填GRCh38或者hg38比较稳妥,毕竟现在新项目多用这个。
但如果是老数据,或者为了和公共数据库的历史数据对齐,填hg19也没问题。
关键是:一致性。
你自己要清楚,你用的到底是哪个版本。
别到时候编辑问你,你支支吾吾答不上来。
最后,再啰嗦一句。
提交前,一定要再检查一遍。
特别是那些混合了不同物种或者不同版本的数据,一定要标注清楚。
别偷懒,别侥幸。
毕竟,数据共享是为了科学进步,不是为了给人添堵。
希望这篇分享,能帮你省下不少改数据的熬夜时间。
GEO提交数据时基因组填什么,其实没那么难,只要细心点,多对照下参考文件,就能避免大部分错误。
记住,真实经验比任何教程都管用。
祝大家提交一次过,早日见刊!