地址治理-标准地址库动态更新ETL方案设计

一个高质量的地址治理项目,背后必然有一份高质量的标准地址库。但是标准地址库的建设工作大量依赖人工作业,由此遗留下3大问题。
首先,人工作业很多都是通过一个小区或者一个街道的扫雷式建设地址库,作业量非常大,成本非常高。关键是会产生大量项目中实际不会用到的地址。
其次,人工作业的局限性,必然会有部分地址的遗漏或者标注错误,后期更新维护成本非常高。
最后,人工作业周期性长,更新一次标准地址库少则一个月,长则半年甚至更长,但是有些地址项目对标准地址库的及时性要求非常高。

本文介绍一种标准地址库动态更新的方案。通过每天将业务地址中没有与标准地址成功关联匹配的地址收集起来,经过ETL流程自动化的规范化工作之后,每天把疑似标准地址的地址数据推送给人工确认就行。这种更新方式更有正对行,减少大量人工作业,并且数据更新频率非常高,能做到T+1更新。

第一步:业务地址汇总:大量非标准的地址数据去重。
第二步:业务地址关联标准地址:依赖addresstool工具,利用api接口或者大数据工具,将业务地址与标准地址进行一对一匹配(具体方法可参考我写的其他文章)。
第三步:未关联(非完全关联)地址汇总。业务地址关联标准地址会有3中情况,完全关联、非完全关联和未关联,后2中情况的地址是需要进一步治理的。
第四步:脏数据过滤。这个可以将各种不符合要求的地址进行过滤,如无地址主体的地址、目前区域外的地址、脏字符串、乱码等。
第五步:地址规范化。这一步主要进行地址分词、地址行政区划补全等操作,尽可能简化后续人工工作量。
第六步:人工审核验证。到这里基本上都是一些书写质量较高的业务地址,人工只需审核地址是否真是存在、地址切词是否正确并进行适当调整修补即可。

地址自动化更新的目的就是为了减少传统方式建标准地址库的工作量,并且提高地址更新的及时性。

如果想了解更多addresstool用法,欢迎关注我的博客
java资源下载

https://download.csdn.net/download/u011024436/89035851

源码学习
https://gitee.com/addresstool/address

使用中有问题或者建议,欢迎联系邮箱addresstool@163.com

posted @ 2024-04-08 13:37  addresstool  阅读(15)  评论(0编辑  收藏  举报