鲁迅公园巡游者

 

上海农商银行:融合架构数据平台及应用——共享数据能力中心

来源:第五届农村中小金融机构科技创新优秀案例评选

一、摘要

数据或信息处理能力在当下金融行业的生存和发展中都起到了至关重要作用,商业银行目前都在该领域的深度和广度上积极探索、布局。以大数据及人工智能代表的新一代数据技术正逐渐替代传统关系型数据库构建的数据仓库体系,但目前市场上对于新技术的运用并无一个公认的最佳实践方案,很多企业在构建类似的场景或需求时很容易陷入两个极端,一个是从上而下,大而全的数据架构,这样的弊端是,速度慢,跟不上价值的变化;一个是从下向上,缺少全局思考,这样的弊端是容易形成数据孤岛和重复建设。

针对上述问题,我行采用大数据与分布式数据库相结合的融合架构模式,并引入流计算、机器学习、决策引擎等技术能力,打造“融合架构数据平台及应用”——共享数据能力中心。该项目集成数据全生命周期的开发处理、运营管理和开放服务的能力,快速推动我行信息处理智能化发展,包括一站式开发运维平台、数据底座(数据湖)、应用集市、智慧应用门户、数据资产运营等模块等,支撑我行客户精准营销、实时风控、智慧运营等应用场景,让数据真正流转起来,充分发挥数据的真正价值。

 

二、系统概述

上海农商银行“融合架构数据平台及应用”——共享数据能力中心建设项目结合Hadoop和MPP数据库的技术特点,打造批流一体融合架构的共享数据能力中心。以传统数据仓库建设方法为导,打造批流一体融合架构的共享数据能力中心,研发基于大数据Hadoop技术搭建的贴源层、历史存储层和金融主题层;在MPP数据库上构建应用集市;数据分层次进行对标及落标;租户形式向智慧应用门户等共享海量数据等特点的平台架构。其中,一体化的数据平台,辅以统一的开发、运维IDE,提升了数据应用开发和维护效率;在金融主题层进行统一落标,丰富了整体数据资产的内涵,提升了数据服务的效能;应用集市多层次维度建模方法,满足应用轻便、灵活、多样化需求;以流计算优势支撑高时效性的决策引擎提升业务服务效率。基于此架构的数据应用覆盖我行客户精准营销、实时风控、智慧运营等多项业务场景,上线后收获了良好的社会经济效益。

 

三、项目方案

(一)系统逻辑架构

共享数据能力中心的整体架构可以分为上、中、下三层架构。

1、下层为物理层,主要包括Hadoop生态的大数据套件、分布式数据库、规则引擎、图引擎以及流计算引擎等基础平台和组件,作为数据采集、存储、开发、运维、管控和应用的基础支撑,是融合数据平台的技术基座;

2、中间层为逻辑层,主要根据底层生态抽象、衍生、集成数据管理及处理能力,支撑各应用场景,各系统和模块的功能;

3、顶层为场景应用层,通过能力中心的支撑,为数字化运营平台、移动平台、开放平台、CMIS、零售营销、风控反欺诈等具体业务场景提供数据服务的支撑。

图 1.共享数据能力中心架构体系

(二)系统物理架构

物理架构,主要包括Hadoop生态的大数据套件、分布式数据库、规则引擎、图引擎以及流计算引擎等基础平台和组件,作为数据采集、存储、开发、运维、管控和应用的基础支撑,是融合数据平台的技术基座:

1、大数据处理套件是结合Hadoop生态和自研组件服务,对外提供的可靠、安全、易用的大数据处理平台,采用裸金属部署。

2、分布式数据库是一个企业级HTAP分布式数据库,将作为数据中台应用集市层的载体,为下游应用系统和业务用户提供批量下发、联机查询、即席查询等混合负载数据服务,采用PaaS部署。

3、流式计算模块基于Flink组件,面向开发者的一站式可视化流计算开发平台,主要包括流计算引擎、可视化流计算开发平台和可视化流计算运维支撑平台三部分,具有状态管理、窗口支持、消息投递等功能点,为大数据套件自带组件。

4、决策引擎通过策略、模型、变量、规则、回测、分析、评分等高效自动化联动提高企业运营效率,采用云上虚拟机部署。

5、图计算引擎实现了分布式图数据的高效存储和运算,可以支撑海量数量的高并发实时读写、查询、运算及分析,采用裸金属部署。

硬件列表及配置如下:

表 1.共享数据能力中心物理配置

系统物理配置架构图如下:

图 2.共享数据能力中心物理架构体系

(三)系统应用架构

共享数据能力中心应用逻辑主要根据底层生态抽象、衍生、集成数据管理及处理能力,支撑各应用场景,各系统和模块的功能包括:

1、开发运维平台提供一站式、标准化、可视化、透明化的全生命周期开发IDE,为数据规划、集成、开发、运维等维度提供图形化的开发界面,实现高协同开发、测试、运维。

2、数据底座使用Hadoop大数据套件对全行数据进行收集、存储、整合,纵向来说数据通过贴源层、历史存储层和金融主题模型层自上而下范式建模,横向来说加工过程又可以分为批量和流计算的方式满足数据处理的不同时效要求。

3、应用集市建立在MPP数据库,其向上承接数据底座,向下满足各类应用需求。在建设过程中应用集市以需求为导向,通过自下而上的方式进行维度建模,满足下游应用灵活轻便快速迭代的要求。

4、数据资产运营对接我行统一数据标准,在数据底座建设过程中进行落标,并通过血缘分析将标准逐层继承;落标过程中盘点数据资产,并将其呈现以便于业务查验。

5、智慧应用门户通过整合各类训练平台、模型工厂及规则引擎,提供我行一体化模型服务,从而实现多元化的模型训练,统一的模型管理与监控,以及智能化、实时化的规则配置与流程管理。

场景应用,通过能力中心的支撑,为数字化运营平台、移动平台、开放平台、CMIS、零售营销、风控反欺诈等具体业务场景提供数据服务的支撑,举例如下:

1、流程自动化:通过界面识别和自动化技术相结合,实现机器模拟人工的操作。目前已引入20个智能机器人,实现对公开户智能填表、舆情自动化监测、报表数据采集等18个业务场景的智能化处理,大大提升了我行的业务处理效率。

2、智慧营销:定制开发期缴保险、睡眠户促活、鑫e贷和鑫福金等专属场景下的精准营销模型。根据模型输出的预测结果,以及总行设定的业务条件,将客户名单分发至分支行进行点对点精准营销。

3、客户关系挖掘:通过图算法进行数据探索,实现供应链挖掘、资金流向分析、集团关系识别、异常交易发现等场景,构建客户关系视图全貌,进而有效地避免金融行业的欺诈风险、信贷风险及相关连锁反应。

4、实时风控:通过风控模型对我行个人线上融资业务实现活体检测、贷款准入、智能授信、支取复核、贷后预警等业务流程,实现贷前、贷中、贷后全流程管理。

图 3.共享数据能力中心应用架构

四、创新点

(一)建立统一的数据开发、运维平台

借助共享数据能力中心统一数据开发运维平台的数据建模、数据同步、数据开发、元数据管理、任务调度、数据服务等数据能力,实现可抽象、可共享、可复用的统一数据开发模式,使得数据开发人员能够持续进行不断演进的数字化运营,适应产品市场和人员组织的快速变化。在整个中心范围内,从数据底座到应用集市,均由一站式平台组件进行开发,并从纵向和横向两个维度的打通。

横向方面,统一数据开发运维平台实现一站式数据集成开发,从大数据套件的核心Hive、Hbase数据库到传统分布式数据库、PGsql到MongoDB、Kafka、AI\BI工具、ETL任务调度等联动打通。

纵向方面,从数据底座到应用集市,从贴源层、历史存储层、金融主题层再到具体的数据应用等一体化开发,做到对数据进行全生命周期管理。

图 4.统一开发平台

同理该平台借助集群管理、资源管理、访问管理、产品管理、监控告警、日志中心等多样化的服务组件,实现了一站式的可视化运维管理平台。包含一键式集群部署、增量部署、丰富的可视化运维工具、完善的面向多租户的计算资源管控体系和完善的用户权限管理体系,为运维人员提供企业级的大数据平台运维管理能力支撑。

(二)建设完备的数据底座

数据底座用于将数据有序的组织和存储,充分发挥大数据易延展、低成本、高并发的优势。通过自上而下的建设思路,辅以标准化落标,提供了一套完整、可靠、规范、全面的数据基础。

此外,分层次数据建模能够促进业务与技术进行有效沟通,形成对主要业务定义和术语的统一认识,具有跨部门、中性的特征,可以表达和涵盖所有的业务,其能带来五大好处:

1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

2、数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。

3、减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

4、把复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。

5、屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。

下图是数据能力中心将使用的一种分层设计方法:

表 2.数据底座分层详细

(三)建立“轻薄”的应用集市

应用集市面向具体的业务应用,在逻辑模型数据基础上,以维度建模的方式构建,允许一定的数据冗余。由系统需求驱动,是直接面向下游数据应用系统建立的数据集市,通过接口文件和应用访问方式提供数据服务;

集市建设可根据业务发展的需要逐步进行扩充,当前优先建设指标集市、标签集市、营销集市、风控集市。

(四)落实数据标准,提高数据管控

共享数据能力中心建设过程中,需贯入我行计财部已制定并经各部门确定数据标准,并严格遵循其数据类型和码值进行数据建模,保证我行现有的数据标准在数据能力中心范围内有效落地。对于数据标准以外或未制定标准的数据,在建设过程中为遵循统一数据标准的原则,建立共享数据能力中心范围内的数据技术规范,以覆盖剩余的数据资产。

具体实践路径为,在贴源层进行数据对标并出具数据对标报告;在主题模型层进行数据落标;在公共汇总层和集市层根据血缘关系继承模型层的数据类型和字段长度,实现数据能力中心范围内技术规范的统一和数据的管控。

过程如下:

图 5.数据落标实践路径

(五)建立高效的服务能力

通过智能应用门户实现全行级数据智能服务,致力于复杂业务场景通过规则灵活性调整的快速迭代响应。通过自动化、智能化的模型服务,提升客户准入、业务审批、贷后监控等环节的作业效率,形成平台、技术、数据、规则一体化的智慧服务体系。

 

五、技术特点

本项目以Hadoop和MPP数据库打造批流一体融合架构的共享数据能力中心,这两项技术都是非常优秀的分布式数据架构,但却有着不同的侧重点和技术特性。我们采用数据分层加工使两者有机结合,利用Hadoop易延展、高并发、低成本等特性构建数据底座,将高计算量、访问量的数据应用构建在成熟的MPP数据库上。在实施过程中,数据底座建设自上而下,确保完整、可靠、规范、全面的数据基础;数据应用集市自下而上,保证了应用敏捷、灵活。同时运用Hadoop丰富的技术栈,如多租户、流计算等能力,提高了数据共享的方便性及实时性,具体如下:

1、Hadoop+MPP全栈式融合架构避免过多数据节点传输;其次MPP数据库弥补Hadoop大数据复杂计算能力不足的缺点。

2、基于Hadoop建设数据底座,大幅度提升系统的可扩展性、并发度和稳定性,实现全行层面海量数据的集中存储和快速处理;

3、通过范式建模构建稳定的、规范的、易于理解和使用的金融主题模型层,对接数据资产运营模块完成数据落标,降低数据冗余,提升面对复杂业务场景的适应能力;

4、基于MPP数据库,建设应用集市,以统一标准对关键业务数据进行组织和整理,降低数据的维护成本,增强数据的共享性、组织性、可用度;

5、采用流式计算引流部分数据需求,减轻批量处理压力,以达到“计算快、时效高”的架构特点,为实时风控、到店营销等多种在线业务应用场景赋能;

6、面向多租户的系统架构提升对系统资源管控能力,通过对其功能和权限的灵活配置,增强平台内数据的安全性,对智能应用门户等应用提供安全、可控的数据支撑。

 

六、项目管理过程

共享数据能力中心建设项目由我行首席信息官周衡昌牵头,金融科技部、零售金融部和网络金融部负责需求的收集、整理和分析工作,金融科技部同时负责项目实施工作,主要经历以下几个阶段:

(一)需求分析和概要设计阶段

此阶段时间段为2020年4月至2020年5月,其间主要完成了业务需求分析、业务功能和技术构架的高层设计。提交了现状需求分析报告、各功能模块的高层设计、技术构架和接口的高层设计等文档。

(二)系统详细设计阶段

此阶段起始时间为2020年5月至2020年6月,其间主要完成了系统详细设计工作,提交了《上海农商银行共享数据能力中心技术方案》等文档。

(三)系统编码、测试和上线准备阶段

此阶段起始时间为2020年7月至2020年10月,其间完成了共享数据能力中心客户化开发的编码、测试以及试点行上线准备工作,提交了开发运维平台、数据底座、应用集市、智慧应用门户、数据资产运营等模块测试报告、上线方案、系统设置等文档。

(四)数据上线、迁移阶段

此阶段起始时间为2020年10月至2020年12月,其间完成了数据底座、应用集市上线及数据迁移工作,并根据上线试运行的情况,为后续应用实施提出了优化需求。

(五)推广实施阶段

此阶段起始时间为2021年1月至2021年3月,对三个数据类应用服务精准营销、实时风控、智慧运营分批推广上线,具体如下:

第一批上线:2021年1月

第二批上线:2021年2月

第三批上线:2021年3月

共享数据能力中心项目实施严格按照总行项目管理相关制度,从计划、质量、财务等多方面进行规范化管理,项目最终如期完成。至2021年3月底,全部投产上线。

七、运营情况

 

(一)应用推广

1、共享数据能力中心整合各个业务系统、多方业务部门数据,打破系统间、部门间的数据壁垒,统一全行数据口径,提高数据可用度、便捷性,平台的日活量达1500人次,日访问量达5000次以上。

2、开发运维平台是对现有数据开发运维模式的垂直整合,全面提升数据开发运维效率。在数据需求量不变的前提下,有效减少数据开发人力成本30%,相同复杂性开发时间缩减20%;实现组件、作业以及租户操作等信息的实时采集,在此基础上实现统一采集、统一存储、统一监控告警等功能,上线3个月后,降低运维人员数量40%,减少无效告警数量近55%,平均问题响应时间从60分钟缩短为20分钟,极大地提升问题定位和解决的效率,降低业务中断风险,助力我行业务高效、稳定和顺畅运行。

3、数据资产运营奠定全行范围的数据共识,消除数据二义性,从源头助力业务数据的标准化生产和前台业务的快速接入,节省大量数据应用和处理的成本。

4、智能应用门户不断引入知识图谱、NLP、OCR、RPA等新型技术能力,同时建立模型工厂,整合同质化模型,形成“定制化模型+公共模型”的模型工厂,最终以决策引擎作为模型服务出口,辅以流计算能力,打造集成“多元化模型训练,统一化模型管理,实时化模型服务”三位一体的智慧应用门户。智慧应用门户的建成,从感知和决策两方面深度赋能我行营销、风控、运营等业务领域,对过往模型重复建、算不准、效率低的状况有了极大改观。

(二)系统运行情况

1、数据库服务器共33台,日常批处理并发在200-300之间,系统资源占用随工作时间呈规律性变化,忙时主要分布在夜间批量0:00-7:00,占用率大体在66%~78%之间。数据处理时长主要依赖上游最后一个数据包到达时间所决定,日常批处理中作业呈高并发状,无明显拥堵和资源抢占情况。对比各阶段上线后的资源占用情况,数据库服务器资源占用没有发生明显变化。因此,当前配置能满足上线后的业务需求,后续大数据平台主要瓶颈在存储方面,根据我行业务增长估算,按现有容量可支撑我行未来3年持续发展。

2、应用服务器共14台,11台部署采用CVM方式,3台采用裸金属部署。即2台前端服务器,2台规则管理服务器,4台规则执行服务器,3台图计算服务,3台图数据库服务器。

资源占用主要集中在8:30~17:00,CPU占用率在30%以下,峰值时可达60% 。目前并发情况情况良好,无明显拥堵和资源抢占情况。后续随着我行线上及小微业务的推广,视业务量增长扩展相关资源。

 

八、项目成效

(一)推进我行数字化转型

共享数据能力中心建设将紧扣数字化转型战略,采用大数据、云计算、人工智能等前沿金融科技技术,更好地加速科技、业务人员融合,满足银行对数据灵活组合使用、高质量分析挖掘、可视化呈现的需求,实现对业务灵活开展快速响应与支撑,最终打造形成数据支撑发展、创新引领未来的银行数字化经营格局。

(二)垂直整合我行数据类开发平台

共享数据能力中心采用统一的开发运维平台,提供了一站式、标准化、可视化、透明化的智能大数据全生命周期任务开发,为其在数据规划、数据集成、数据开发、数据运维等维度提供集成图形化的开发界面。打破传统以系统为壑的技术壁垒,提高协同开发运维效率,让开发人员可以流动起来,提高效率,集中精力面向数据高价值纵深。

(三)统一数据标准,改善数据质量

数据资产运营模块采用我行统一数据标准,在金融主题模型设计、数据应用开发的过程中进行落标、对标,保证共享数据能力中心全域符合行内数据规范,并通过开发运维平台将落实标准的工作镶嵌在日常工作中。配套数据管控及落标检查等功能倒逼上游系统进行数据质量改进,为下游应用打下良好基础。

(四)创新实践了双向开发模式

双向开发模式即数据底座采用自上而下范式建模方式,应用集市采用自下而上维度建模方式。通过相关实践提出了“厚底座,薄应用”的开发模式,在共享数据能力中心内数据底座保留数据完整性、全面性的基础上,搭建上层以需求为导向的敏捷应用开发,并摸索了一套相适应的开发制度,流程规范。

(五)多元化的模型训练

智慧应用门户提供“AI+BI”并举的模型训练方式,满足业务、科技、运维等角色的不同需求。基于人工智能特征库,模型训练平台向用户提供可视化数据探索、便捷式特征工程、拖拽化模型训练、一键式迭代优化等功能,深度契合数据分析的轻量化体验需求。

(六)统一的模型管理

智慧应用门户通过建立模型工厂统一管控全行模型。训练平台产出的模型,在模型工厂统一注册,向智能辅助决策平台提供模型订阅服务。模型工厂支持多模式接入、一键上线、自动化评估、自动告警等功能,横向整合行内同质化模型,形成“定制化模型+公共模型”的模型集市,对过往模型重复建、算不准、效率低的状况有了极大改观。

(七)敏捷的模型服务

智慧应用门户通过引入智能辅助决策平台,作为实时模型服务的统一出口,支持模型要素选择,决策流程配置与监控,灰度发布与冠军挑战等功能。在针对具体场景配置相应的决策流程后,实时生效,通过模型工厂订阅服务,将结果反馈,辅助业务决策,并可根据结果,更新人工智能特征库,供模型迭代使用,形成人工智能全生命周期闭环运营。

 

九、经验总结

我行将通过共享数据能力中心建设项目加快了金融科技数字化转型,推进数据、科技、业务紧密深入融合,同步实现数据开发和数据服务的统一管理,提升数字化对业务发展的支撑能力。

该项目不仅是信息系统建设项目,更是与我行数字化转型战略相匹配的管理项目,平台以规范化、体系化、平台化、服务化为原则,建立数据类应用开发规范、数据服务规范、模型管理规范,提升规范化整体水平,实现我行数据开发、管控、运维、服务的一体化;构建数据共享和开放服务体系,将行内现有散布各处的数据和数据服务能力集中整合,实现我行对外提供数据与服务的统一化,提升全行数据与服务管理水平。

更多金融科技案例,请登录数字金融创新知识服务平台- 金科创新社(FintechinChina.com)官网案例库查看。

posted on 2022-06-29 20:38  鲁迅公园巡游者  阅读(50)  评论(0编辑  收藏  举报

导航