快手大数据安全平台建设实践:从挑战到体系化解决方案
在当今数据驱动的时代,大数据安全已成为企业发展的关键基石。本次快手在大数据安全平台建设方面的实践经验,展现了快手如何从实际业务需求出发,构建起一套完整的大数据安全体系。
一、快手大数据安全平台的定位与挑战
(一)平台定位
快手大数据安全平台的核心职责是为大数据全链路、全生命周期保驾护航,保障数据安全。其覆盖了从数据上报、采集、同步、加工、分发到服务的各个阶段,涉及离线和实时数据处理场景,旨在通过技术手段确保数据在整个生命周期中的安全性和合规性。
(二)面临的挑战
系统覆盖度广:快手大数据平台涵盖了大数据计算和存储引擎、数据生产类平台、数据分析类平台等众多系统,需要实现全面的安全管控。
精细化管控需求高12:需要支持报表、数据集、指标、维度、库、表、行、列、文件等多种资源的权限控制,对数据的读、写等操作进行细粒度权限控制,满足多租户体系的数据隔离和权限管控要求。
性能要求严苛34:需要支撑千级用户、百万级资源的亿级权限关系,满足几十毫秒级鉴权延时,同时支持 OLAP 每天亿级查询和 HDFS 百万级 QPS。
业务灵活多变5:要满足多种业务线的权限管控需求,以及数据分析类平台灵活多变的业务需求。
二、快手大数据安全67建设思路与原则
(一)建设思路
快手采用了组织、安全、规范、大数据治理、安全工具相结合的建设思路,明确各方面的职责,确保安全合规,遵循最小权限、数据授权、权限不转移、分类分级等原则,在保证安全的同时兼顾效率至。
(二)核心原则8
9- 最小权限原则:只授予用户完成任务所需的最小权限,降低数据泄露风险。
数据分类分级:根据数据的敏感程度和重要性进行分类分级,实施不同的安全管控措施。
权限不转移:防止权限被非法转移或滥用,确保权限管理的严格性。
三、平台建设的发展历程与系统架构
(一)发展历程
原始阶段:初期安全能力较为基础,主要面向分析类的报表平台。
V1.0 一站式阶段:具备了申请、审批、授权、清查等一站式权限管理能力,覆盖范围扩展到分析类的报表、分析工具、实验等以及引擎类的 HIVE。
V2.0 精细化阶段:实现了 4A 能力,包括大数据统一认证、全链路审计,覆盖的系统类型进一步增加。
V3.0 数据合规阶段:具备了 5A 能力,增加了加解密、脱敏、安全隔离仓等功能,覆盖了更多的引擎和开发类平台至。
(二)系统架构10
快手大数据安全平台采用统一化和插件化的系统架构,主要包括以下几个层次:
应用层:涵盖 BI 系统、数据分析、调度系统、数据开发等。
统一服务层:提供通用的认证、鉴权、授权、审计、查询、加解密等服务。
统一计算层:包含鉴权引擎和规则引擎,负责鉴权模型和策略规则的计算。
统一存储层和接入层:提供缓存管理、资源接入等服务。
依赖层:包括元数据、流程中心、组织架构、秘钥管理中心等至。
该架构通过统一服务、统11一12计算、统一接入和统一存储,实现了对多种数据引擎和平台的安全管控,同时通过插件层满足了各个引擎自身的特点和需求,确保了高 QPS、低延时等性能要求。
四、关键技术实现
(一)认证体系
快手构建了轻量级、本地化且易衍化的认证体系。账号类型包括个人、项目组、代理账号,采用 principal 表示,格式为 principal_name/type@realm。支持 AccessToken、DelegateToken、DegradeToken 等多种令牌类型,通过一系列加密和验证机制,确保认证的安全性和可靠性至。
(二)权限模型13
13快手自研了组合 RBAC 和 PBAC 的 PRBAC 权限模型。该模型在不同发展阶段不断演进,从最初的资源和角色管理,到增加资源包、动作、用户组,再到实现行级权限、租户数据隔离,以及最终的列级权限和精细的管控模式,满足了不同阶段的权限管理需求至。
(三)统一鉴权14
15快手实现了本地鉴权和远程鉴权两种模式。鉴权核心架构包括 Auth Engine、Policy Refresher、Cache Manager、Data Loader 等组件,通过高效的鉴权计算、策略管理、缓存管理和数据加载,确保了鉴权的性能和稳定性,能够支撑大规模的权限管理和鉴权请求至。
(四)全链路审16计17
快手大数据安全审计平台实现了全链路覆盖、融合血缘信息、统一审计标准和风险识别告警。通过对数据引擎、OLAP、HDFS 等数据源的实时采集和分析,对资产操作日志、访问日志、下载日志进行转换和处理,实现了异常行为告警、审计策略计算和异常行为溯源,为数据安全提供了有力的审计支持至。
五、最佳实践
18#12# (一)数据分类分级
标准与原则:快手制定了数据分类分级标准,将数据分为公开级、内部级、机密级、绝密级(C1-C4),同时对数据进行分类,包括通用数据和隐私数据等。遵循数据升级、降级和衍生原则,确保数据分类分级的合理性和准确性至。
解决方案:19通20过元数据采集、自动数据识别(利用改进 BERT 模型、机器学习算法 k-means、校验算法 Luhn 等检测算法,以及内置 50 + 个人敏感信息的识别规则模板)、字段血缘链路传播等方式,实现了数据的分类分级管理,并通过资产大盘分析,从个人、组织、部门三个视角查看不同级别资产的分布、分类信息和访问情况至。
(二)数据引擎21安12全
问题与挑战:面临管理规范不清晰、安全能力缺失、运营治理困难等问题,如组织管理体系不清晰、账号体系未建设、身份认证能力缺失、无法定位真实访问用户等至。
解决方案:22制7定了账号体系、管理角色和权限隔离等规范,开发了具备 SQL 类引擎行列级权限、租户体系多种管控模式的产品能力,采用 HDFS 及之上其它引擎分层独立访问控制的鉴权模型,通过通用的鉴权插件提升鉴权计算性能,并通过头部平台沟通、长尾运营和灰度封禁等治理措施,确保数据引擎的安全至。
(三)敏感数据23保24护
问题与挑战:需要满足不同国家的法律法规要求,对敏感数据进行集中管控,同时考虑改造的成本和效率至。
解决方案:25梳7理了国内外高敏感个人信息,定义了各类敏感数据的脱敏方式和要求。通过数据识别、保护、检测和响应等工具,实现了对敏感数据的全生命周期保护。在治理方面,进行了存量和增量数据的治理,确保敏感数据的安全至。
六、成果总结与未23来26规划
(一)成果总结
目前,快手大数据安全平台已取得显著成果:接入了 30 + 系统,管理千万级资源数,实现百万级授权数,千级日均申请量,覆盖了报表系统、BI 系统、APP 分析、AB 系统、数据同步、数据开发平台等众多应用场景,对 HIVE、DRUID、CK、KAFKA、HDFS 等数据引擎进行了安全管控至。
(二)未来规划27
- 推动底层引擎接入:推动底层引擎的使用方 100% 接入认证和鉴权,进一步提升系统的安全性和覆盖度。2. 探索前沿隐私保护技术:探索联邦学习、安全多方计算等前沿隐私保护技术,增强隐私数据保护,实现 “数据的可用不可见”。3. 智能化数据分类分级:通过机器学习算法实现数据的智能分类分级,持续提升数据分类分级的准确性。4. 加强态势感知:对数据资产分布、敏感数据访问行为进行多维度全方位分析,对异常行为进行检测,提升数据安全的态势感知能力至。
快手大数据安全平台的建11设7实践表明,大数据安全需要从架构设计、技术实现、管理规范等多个层面进行体系化建设,结合业务需求和技术发展,不断优化和完善安全策略,才能有效应对日益复杂的大数据安全挑战,为企业的数据资产安全保驾护航。
浙公网安备 33010602011771号