合并 geo 数据太头秃？老鸟教你三步搞定多源数据清洗难题-山东电子政务网

做了十五年 Geo 行业，我见过太多人死磕“合并 geo”这个环节。很多人觉得这活儿就是简单的 Excel 合并，结果一跑数据，报错报得怀疑人生。今天不整那些虚头巴脑的理论，咱们直接聊点实操的，怎么把乱七八糟的地理数据理顺。

先说个真事儿。上个月有个做本地生活服务的客户找我，手里有两份数据：一份是美团后台导出的商户坐标，另一份是线下地推团队手填的 GPS 点位。两份数据加起来大概有两千多条记录。客户想把这些点都投到地图上看看覆盖盲区。乍一看挺简单，但问题出在坐标系统不统一，有的用 WGS84，有的用 GCJ02，还有的直接是百度坐标。更坑的是，有些商户名字写得千奇百怪，“星巴克”写成“星巴克咖啡”，“麦当劳”写成“麦门”，这种模糊匹配在 GIS 处理里简直是噩梦。

如果你也遇到这种情况，别急着上手导数据，按我下面这三步走，能省下一半的时间。

第一步，统一坐标系是底线。不管你的数据源来自哪里，先把所有坐标转换成同一个标准，通常是 WGS84。这一步千万别偷懒，很多人直接跳过，结果地图偏移得亲妈都不认识。你可以用一些开源工具或者 Python 的 pyproj 库来批量转换。注意，转换过程中一定要检查异常值，比如纬度超过 90 度或者经度超过 180 度的点，这些通常是录入错误，直接剔除。

第二步，解决“同名不同址”和“同址不同名”的问题。这是合并 geo 中最头疼的部分。对于商户名称，不能只靠简单的字符串匹配。我通常会先用正则表达式清洗掉“店”、“铺”、“中心”这些后缀，然后利用模糊匹配算法，比如 Levenshtein 距离，给相似度高于 80% 的记录打上标记。但光靠算法不够，还得结合地理围栏。如果两个点距离在 50 米以内，且名称相似度很高，大概率是同一个点。这时候需要人工介入复核，毕竟机器不懂“老张烧烤”和“张氏烧烤”是不是同一家。

第三步，去重与融合。经过前两步，你已经得到了一份相对干净的数据集。接下来就是根据业务需求决定保留哪些字段。比如，如果两份数据都有营业时间，取最新的那份；如果只有一份有，就保留原样。这里有个小技巧，给每条记录加一个“置信度”评分。如果是机器自动匹配的，置信度低；如果是人工确认过的，置信度高。最后导出时，只保留高置信度的记录，或者将低置信度的单独列出供二次审核。

我做过一个对比测试，同样的数据量，用传统 Excel VLOOKUP 加手动核对的方式，花了三天还没弄完，而且错误率高达 15%。而用上面这套流程，配合简单的脚本自动化，半天就搞定了，错误率控制在 2% 以内。这其中的差距，不在于工具多高级，而在于思路清不清晰。

很多人觉得 GIS 处理高深莫测，其实核心就是逻辑。别被那些复杂的软件界面吓住，先把数据清洗干净，比什么都强。记住，数据质量决定了你后续分析的上限。如果你还在为坐标偏移或者数据重复发愁，不妨试试从源头规范数据录入格式，这才是治本之策。

希望这些经验能帮你在处理地理数据时少掉几根头发。毕竟，咱们做技术的，头发比代码重要。