医疗监测系统数据抽取与核对思路
一、数据抽取
概念:
数据抽取的本质就是把一个库的数据转移到另一个库,这个是毋庸置疑的,中间所经过的数据清洗与转换可以按照业务需要自己去转换数据;
抽取工具:
使用国外开源的工具kettle或者阿里巴巴的datax工具都可以;
具体安装方法自己查百度,使用教程自己百度;
kettle安装教程
https://note.youdao.com/ynoteshare1/index.html?id=a8c536ba952a48d60d7ea8f2cc61a94b&type=note
二、数据核对:
数据核对本质:
应为我们做的是《监测系统》,所以监测系统的本质就是把各大《系统》里面的指标显示在《监测系统》里面做一个整合,可以按照区域或者时间范围做数据筛选,所选的数据时间和地区范围
的数值最好与业务系统的指标数值相等,对不懂业务和技术的人才最有睡服力(其实只是为了说服领导),能在一个系统里面找到多个系统里面相同的指标数值,这个就是医管监测系统需要做的;

具体的业务场景是要能在一个系统里面查出所有系统里面的指标;
实现流程:
因为所有的业务系统的数据量整合在一起是十分庞大的,而指标系统只需要钻取数据的级别可能只到业务系统或者业务系统更低的级别(反正不会显示原始数据),所以把数据进行汇总存储才是比较好的方法,具体架构图如下:

实质就是一个数据转换为统一标准在进行汇总的一个过程,因为整个工程流水线十分长,所以需要很多人负责整个项目,而且指标数量非常的多;如果业务系统不是自己公司做的,而是其他厂商做的系统(每个业务系统的表结构都不一样,或者多多少少有差异),那这个数据
就会对接喝数据推送就会的十分头疼(其他产商不配合,数据推送员不懂业务,每个人对业务的理解不一样,工作量就非常的大,其中一个环节出问题,对接数据进度非常难推进);这里非常需要非常精通系统业务的大佬来做数据转换和推送,否则数据核对的时候问题会非常的多,核对数据时间会非常的长;
注:这里的大数据中心集群存储的数据其实都是详细数据,只不过是经过了一定的字段名称转换或者敏感数据的字段过滤,这里存储的数据都是自己需要用到的字段,不要存储太多自己用不到的字段;
核对思路:
监测中心数据库负责人统一查出各大机构(或区域)时间点内每个指标的数值做成表格------->各大机构推送数据负责人提供业务库时间点内每个指标的数值------->放到同一个excel表格
做对比分析,找出差数值异超过2%*(或者允许偏差)的指标,和业务数据推送负责人共同找bug,让业务系统负责人提供他们自己的统计语句,看看,会漏掉什么字段或者表吗?------>监测中心负责人和大数据中心转换负责人一起查找是否是是自己的统计方法错了,还是数据丢失的问题,还是缺少字段或者表的问题,查缺补漏即可,最终指标数据偏差在自己能接受的范围里面就行,这样算是核对完成了;
注:1.如果监测中心和业务库负责人的指标统计口径不一致,就只需要核对业务表的数据条数或者总数与大数据中心的存储数据一致即可,不需要做过多的纠结;
2.每个业务库的表结构都不一样,这个是很要命的;
第一个对接数据的业务系统很重要:
核对的第一个业务系统(越大的系统越好,说明指标越全,业务越全)很重要,最好包含其他业务系统的所有指标,核对完一家(定下统一标准,就是大数据中心的数据标准),其他家业务系统只要按照统一标准上传数据即可,如果数值差异太大,就需要
业务系统数据推送员和大数据中心负责人核对数据既可以,监测中心负责人提供统一的汇总语句给大数据中心负责人(减少监测中心负责人的工作量)就可以和推送员核对数据,这样可以解放劳动力;
其实大数据中心还可以做很多其他的业务,自己慢慢想吧,其实这是一块很大很难啃的蛋糕,没有点商务关系的公司真的很难做起来,小心资金链被烧断哦!!!!!
没时间了,就写这么多,不懂得私信我吧!!!!!!!!!!!!!!!!!!!!!!!
end--------------------------------------------

浙公网安备 33010602011771号