GEO提交数据时基因组填什么，老鸟手把手教你避坑，别再把hg19和hg38搞混了-山东电子政务网

做生物信息的朋友，谁没在GEO提交数据时抓狂过？

特别是那个“Genome”选项。

每次填这儿，我都得停半天。

填错？后果很严重。

轻则被编辑打回重填，耽误时间。

重则导致下游分析全乱套，别人引用你的数据，结果比对不上，那真是社死现场。

今天我就掏心窝子聊聊，GEO提交数据时基因组填什么，到底该怎么选。

先说结论：别瞎猜，看你的原始数据来自哪里。

我见过太多新手，手里拿着hg19的bam文件，非要选hg38。

为啥？因为觉得hg38听起来更“新”、更“高级”。

大错特错。

基因组版本必须和你的比对参考一致。

如果你是用hg19做的比对，那必须填hg19。

不然人家下载你的数据，用hg38去重新比对，那reads对不上，数据就废了。

这里有个真实的翻车案例。

去年有个哥们，发了篇挺不错的文章，数据也上了GEO。

他用的细胞系是K562。

他在提交时，脑子一抽，选了GRCh38。

但他用的参考基因组其实是UCSC的hg19。

结果呢？

有个做单细胞测序的大牛，下载了他的bulk RNA-seq数据。

想拿来做去批次化，顺便看看自己的scRNA-seq能不能映射过去。

结果一映射，发现大部分reads都比对不上。

那大牛直接在Twitter上吐槽，说这数据质量不行。

其实数据没问题，是基因组版本搞错了。

这哥们后来不得不发个更正说明，尴尬不？

所以，怎么判断该填啥？

第一步，看你的pipeline。

如果你用的是Tophat2、HISAT2这些老工具，默认大概率是hg19。

如果你用的是STAR、HISAT2的新版本，或者Salmon、Kallisto这些准定量工具，很多默认指向GRCh38。

第二步，看你的参考基因组文件头。

打开你的ref.fa或者genome.fa文件。

第一行通常会有描述信息。

里面会写着chr1、chr2...还是1、2...

如果是chr1开头，通常是UCSC格式，对应hg19或hg38。

如果是1开头，通常是Ensembl格式，对应GRCh37或GRCh38。

这点特别重要，千万别看走眼。

第三步，查文献。

看看你参考的那篇论文，或者你用的软件文档。

比如，ENCODE项目的数据，早期多是hg19，后期逐渐转向GRCh38。

如果你做的是小鼠数据，那就更简单。

mm10是主流，mm9虽然老但还有人用。

别填错成人类基因组，那简直是灾难。

还有个坑，就是版本号的细微差别。

比如GRCh37和hg19，其实是一回事。

但在GEO的下拉菜单里，它们可能被分开列着。

这时候，建议填最通用的那个。

通常填GRCh38或者hg38比较稳妥，毕竟现在新项目多用这个。

但如果是老数据，或者为了和公共数据库的历史数据对齐，填hg19也没问题。

关键是：一致性。

你自己要清楚，你用的到底是哪个版本。

别到时候编辑问你，你支支吾吾答不上来。

最后，再啰嗦一句。

提交前，一定要再检查一遍。

特别是那些混合了不同物种或者不同版本的数据，一定要标注清楚。

别偷懒，别侥幸。

毕竟，数据共享是为了科学进步，不是为了给人添堵。

希望这篇分享，能帮你省下不少改数据的熬夜时间。

GEO提交数据时基因组填什么，其实没那么难，只要细心点，多对照下参考文件，就能避免大部分错误。

记住，真实经验比任何教程都管用。

祝大家提交一次过，早日见刊！

资讯详情

GEO提交数据时基因组填什么，老鸟手把手教你避坑，别再把hg19和hg38搞混了

相关新闻

GEO特種部隊实战指南：别再做无用功，这3招让流量翻倍

GEO糖尿病脑卒中 怎么搞？老SEO掏心窝子说点大实话

geo探针转换成基因hu133：踩坑三年后的血泪总结，小白必看

geo隐形眼镜哪里买靠谱？别瞎搜了，这坑我替你踩了

别被忽悠了！geo隐形和海昌到底怎么选？过来人血泪避坑指南

搞砸了三次才懂：geo引物设计那些坑，新手别再踩了

别信那些大师说的seo优化，geo引擎优化技术路径才是普通人翻盘的唯一出路

别被忽悠了！2024年geo引擎多少钱？老鸟掏心窝子算笔账

干了15年Geo，终于搞懂geo银灰到底该怎么选才不踩坑

GEO糖尿病脑卒中怎么搞？老SEO掏心窝子说点大实话