商业智能系统的关键技术

本文通过对商务智能系统整体框架的描述,通过对后台处理、中间处理、前台处理和数据质量的重点分析描述数据处理的过程,最后谈了系统选型的过程。

1 系统整体框架     商业智能的过程,是从不同的数据源收集的数据中,提取、清理,并经过转换、重构之后存入数据仓库(DW),而通过何时的查询分析工具、数据挖掘工具、OLAP工具对信息进行处理,并在前端将数据、报表、图表等信息呈现给用户,使得原始数据转变为用户的决策。其中数据是贯穿始终的主线,对数据的提取、加工、储存、分析的过程尤其重要,除了需要选择适当的系统产品实现这些功能,同时对于整体系统架构,包括数据源、ETL、DW、元数据管理、OLAP、前端展示,还包括系统运维管理平台等,需要具有相当程度的先进性和可扩展性,以满足未来业务不断变化和增加的需求。

2 数据处理    如图1所示,商业智能系统对数据处理的第一步工作,是通过ETL工具,

点击图片查看大图

图1 系统整体技术架构

    将各系统中的指标数据,以及游离于业务系统之外的其他格式的数据、报表进行整和、转换、清洗后,并存入数据仓库中。数据仓库可以提供方便安全的数据共享机制,使数据真正用起来,辅助决策。通过这种信息交换和共享机制,及时汇集相关的信息,实现各个业务系统公共信息数据的标准化、一致化、及时更新和安全管理。对于数据仓库中存放的数据,可以按照业务需要,随时进行多角度、深层次的分析和加工,充分加以利用,为各级领导的决策提供科学、合理的依据,也使数据从采集到利用处于一种良性循环状态。    

2.1 后台处理     数据在数据仓库系统中的处理过程,第一步即为后台处理,这部分包括两个方面:数据采集和数据处理。     数据采集工作是按照计划任务或者手工启动进程检查数据存储的变化,如有数据的变化将变化的数据读到数据仓库所在的事务库中。数据处理工作则是对数据的变化进行处理,使用特定的方法截取和收集已被改变或增加的数据。此外,后台管理工具提供了对数据仓库数据放置和分发的管理,访问安全权限的管理,元数据编译和处理的管理,报表定制和数据发布的管理等。   

  2.2 中间处理     中间处理更新了数据仓库中中间区域的数据,并使之成为可供最终客户,也就是数据仓库系统的用户使用的信息库,它包括三个部分:数据整理,数据的放置和分发,标准表的编译和索引。这项工作是将收集来的数据进行数据的整理和规范,使之获得一个适合数据仓库元数据规则的格式和定义。完成数据的整理和转换后,必须将相应的数据放置的分发到数据仓库的指定位置中。在数据已放入数据仓库数据存储器之后,对包含于数据仓库系统内的标准表,还必须进行编译和索引,使之成为元数据的基础数据以供给用户使用。  

  2.3 前台处理     前台处理过程涉及到允许用户对数据仓库所包含的信息进行正确的有权限的访问,及提供用户工具集所需的目录和中间数据信息。该过程的任务包括管理和访问数据仓库的应用程序,通过适当的管理工具来定义和管理用户从而提高数据访问和控制能力。    

2.4 数据质量     商业智能系统为用户决策提供帮助,而数据质量直接影响到决策的准确程度,因此保证数据仓库中的数据的质量是一项十分重要的工作。数据质量问题具体表现在如下几个方面:    

1.正确性(Accuracy):数据是否正确的表示了现实或可证实的来源。   

  2.完整性(Integrity):数据之间的参照完整性是否存在或一致。  

   3.一致性(Consistency):数据是否被一致的定义或理解。    

4.完备性(Completeness):所有需要的数据都存在吗。    

5.有效性(Validity):数据是否在企业定义的可接受的范围之内。   

  6.时效性(Timeliness):数据在需要的时侯是否有效。   

  7.可获取性(Accessibility):数据是否易于获取、易于理解和易于使用。     一方面在数据仓库设计过程中必须执行严格的数据质量评价方法论,审计、监控和保障数据质量,另一方面由于数据源的多样性和复杂性,还需要在业务人员认可了确定数据正确性和一致性方法的基础上,制定出数据质量控制策略,以及数据管理流程。同时还需要确定用于识别和处理错误数据、数据清洁、监测和控制脏数据的业务规则,通过业务人员和技术人员的通力合作,进行足够的数据正确性测试,以保证数据质量。    

通常采用引入数据质量控制模块的方法,并与数据获取模块集成在一起,用于检查质量控制功能,确定在从源数据环境转换到目的环境的全过程中是否按照正确的顺序完成,以保证进入到数据仓库中的数据是可靠的数据。数据质量控制的主要任务包括:  

   1.实施严格的数据质量评价方法论,审计、监控和保障数据质量。   

  2.保证数据的统一性和可靠性。    

3.处理违反业务规则的数据。    

4.处理重复属性的数据。    

5.处理缺少对应关系的数据。    

6.处理源和目的缺乏同步的数据。    

7.处理不符合标准的格式。    

8.处理错误的数据范围。   

 

  9.捕获并处理空值。    

10.拆分数据,依据业务需求对数据进行分解。    

11.验证数据正确性。

posted on 2012-05-11 16:30  cy凌云  阅读(423)  评论(0)    收藏  举报