强大的SQL Server数据清理和处理

问题

我们的组织每天都会接收和传输业务关键流程的数据,并将其传输给众多合作伙伴,供应商,客户,供应商等。在将数据加载到我们的SQL Server环境之前,需要对我们的数据进行验证和清理。我们已经与SQL Server DBA和开发人员进行了大量投资,以使流程尽可能地自动化。不幸的是,我们一直在朝着不断变化的目标进行射击,即每个系统之间的文件格式不同,我们经常会得到意想不到的文件格式(数据被添加,删除或重新排序),组织之间要求提供新数据,并且情况更加不可预测。最重要的是,我们需要确保对数据有充分了解的数据管理员正确地审核了所有数据。

不断变化的数据管理目标往往使SQL Server DBA和开发人员不知所措,需要立即响应以更新验证和导入代码,然后加载数据以满足组织之间的业务需求。我们如何才能两全其美?让我们的SQL Server DBA和开发人员构建一个系统来支持组织,同时为我们的数据管理员提供在生产负载之前灵活地验证和清除数据的灵活性,而无需我们技术团队的深入编程知识。

使用SQL Server数据平台,大多数DBA和开发人员都可以使用SQL Server集成服务(SSIS),Azure数据工厂(ADF),BIML,XML,JSON或T-SQL代码。借助标准化的文件,格式和数据,这些技术能够使繁琐的流程自动化。SQL Server技术人员能够在节省整个组织的时间方面发光并显示其价值。

 

 

不幸的是,由于流程之间不断变化的营销程序,系统更新,短期程序,产品线的变化,通过众多供应商的履行等原因,许多流程很难实现系统之间的日常更改。从技术角度来看,这可以看作是SSIS的噩梦, 其中包含数百个笨拙的程序包,版本控制崩溃以及数不尽的时间试图自动化快速发展的流程。这些情况很快使SQL Server技术人员感到沮丧,并且可以从与应用程序所有者,数据管理员和超级用户的协作中受益,他们可以解密数据并与其他组织进行交互以完成整个过程。

那么,如何避免SSIS噩梦让技术人员自动化标准化流程,并为数据管理员提供一种无需成为程序员即可清理,验证和导入数据的解决方案吗?我想介绍的一个解决方案是 Melissa的Unison,这是为Data Stewards构建的解决方案,使他们能够通过直观的面向项目的框架来验证,清除,导入和导出数据。Unison提供:

  • 直观的三步过程执行数据清理
  • 简单的点击界面即可分析,清理,标准化,丰富,匹配,合并和验证数据
  • 高度完善的数据质量算法,可确保您的数据在每月元数据更新中准确无误
  • 适用于240个国家/地区的地址验证,名称解析等
  • 从主要数据库(SQL Server,Oracle和MySQL),Excel和平面文件导入和导出数据
  • 直观的基于Web的界面,无需编程专业知识
  • 业务用户之间的协作,以确保满足关键业务流程
  • 面向项目的范例,用于重用,修改和重复计划
  • 快速数据处理-每小时5000万条地址记录
  • 专为本地部署容器技术而设计的体系结构,可满足内部安全性和性能要求

让我们深入了解Unison的实际情况。

适用于数据管理员的Unison数据质量入门

要开始使用 Unison清理和验证数据 ,请登录到仪表板以访问项目,作业和管理界面,例如日志,用户管理,元数据更新等。通过单击左侧导航栏中的“项目”链接来启动一个新项目,然后选择“新建”选项。首先,通过命名项目然后指定项目是公共项目还是私有项目来开始该过程。

适用于数据管理员的Unison数据质量入门

命名项目后,将遵循三个核心步骤来完成项目:

  1. 将输入源定义为文本文件或数据库连接
  2. 配置数据验证任务
  3. 将输出源指定为文本文件或数据库连接

输入源和输出源都可以是到SQL Server,Oracle或MySQL的平面文件或数据库连接。下面是在项目中创建数据库连接的界面。

 

 

在Unison中创建新的数据库连接

在此项目中,我们将文本文件从Windows资源管理器拖放到Unison中,Unison将读取文件头并预览前三个记录,如下所示。  Unison包括智能文件检测功能,但是如果需要,可以根据定界符,字段附件(例如双引号)或文本文件是否为固定宽度来配置文本文件属性。

Unison初始数据验证

配置完成后,项目如下所示:

正在进行中的Unison项目

Unison数据验证任务

在数据验证任务中,Unison的真正价值显而易见。当前有四个可用任务,包括240个国家/地区的名称解析,电话,电子邮件和地址清除。免费的Melissa解决方案目前支持Matching,Data Profiler和Data Cleansing 对于Unison,只需单击任何任务即可将其包括在项目中。让我们从我们的项目的地址清理开始。

Unison数据验证任务

与Unison进行地址清理

对于“地址清理”,任务会将输入文件与 Unison中的公共地址字段匹配 该过程首先识别输入字段,然后识别输出字段,这些字段最终将在该过程的最后一步中使用。输出字段是经过验证的Melissa结果,以确保最终数据准确。审查并保存配置后,我们将返回主项目设计窗口。

用Unison解析名称

我们的下一步是执行Unison命名解析,它遵循与Address Task类似的范例。这包括带有验证的输入和输出字段以及每个名称段的分隔。

 

 

用Unison解析名称

当我们返回到项目时,输入和任务的当前状态已完成。我们最后的配置步骤是定义输出。

Unison数据验证项目正在进行中

Unison输出

就像Unison输入一样,输出可以同时输出到SQL Server,Oracle或MySQL中的文件或表。使用下面显示的“写入文件”选项,包括名称,扩展名,附件和分隔符。此外,该文件一旦生成,就可以压缩为Zip或GZip文件。另一个独特功能是能够根据完整地址匹配,完整电话号码匹配等过滤文件输出。

作为输出任务在Unison中写入文件

作为输出数据之前的最后一步,Unison提供了查看输出字段,使用滑块打开/关闭列以及重新排列列顺序的功能。右侧的图例指定与输出字段关联的颜色编码。

查看Unison中的输出字段

最终项目审查

现在已经配置了项目,界面右上方的三个选项包括:

  1. 现在跑步
  2. 预览输出
  3. 时间表

Unison的最终数据清理项目

预览输出

在“预览输出”选项中,您可以查看所有列和第一组行,以确保将以所需的格式传递数据。如果没有,您可以根据需要更新项目。

Unison中的输出预览

立即在Unison中运行

如果基于“预览输出”的数据是正确的,则运行作业,检查状态,并在业务流程中的后续步骤中下载最终输出文件。这是否意味着将文件复制到要由SQL Server Professionals构建的自动过程加载的数据的目录中,对文件进行加密,然后与团队成员或合作伙伴共享,等等。

Unison的工作状态

如果单击“查看报告”按钮,则可以图形或表格形式查看名称和地址解析的结果,以了解所做的更改类型和记录的错误。

Unison报告

统一调度

该项目的最终选择是安排作业每天,每周,每月或自定义时间范围内运行。下面是直观的界面,用于每天安排工作。

安排作业在Unison中每天运行

Unison还提供机会更新和审查作业,以满足日常管理和监视需求。

Unison调度界面
posted @ 2020-08-17 09:23  Javi  阅读(2220)  评论(0编辑  收藏  举报