随笔分类 -  大数据

摘要:定义与目标 定义:数据整合是指将来自不同数据源(如不同的业务系统、数据库、文件系统、外部数据等)的数据进行收集、清洗、转换、融合等操作,以形成一个完整、一致、高质量的数据集合的过程。这些数据源可能具有不同的数据格式、语义、质量水平等。 目标: 建立统一的数据视图:为企业或组织提供一个全面、准确的单一 阅读全文
posted @ 2024-12-17 14:34 软件职业规划 阅读(2148) 评论(0) 推荐(0)
摘要:定义与目的 定义:数据可视化是指通过图形、图表、地图、信息图等直观的视觉元素和视觉手段,将数据以更易于理解和解释的方式呈现出来的技术和方法。它将抽象的数据转化为可视化的图形表示,使人们能够快速地洞察数据中的模式、趋势、关系和异常。 目的: 快速理解数据:以直观的视觉形式呈现数据,能够帮助用户在短时间 阅读全文
posted @ 2024-12-17 14:32 软件职业规划 阅读(1221) 评论(0) 推荐(0)
摘要:定义与意义 定义:数据交换共享是指在不同的组织、部门或系统之间,通过一定的规则、协议和技术手段,将数据进行相互传输和共同使用的过程。这使得数据能够跨越组织边界或系统边界,在更广泛的范围内发挥价值。 意义: 提升数据价值:通过数据交换共享,各方可以获取到更全面的数据资源,从而挖掘出更多有价值的信息。例 阅读全文
posted @ 2024-12-17 14:30 软件职业规划 阅读(1106) 评论(0) 推荐(0)
摘要:定义与重要性 定义:数据模型是一种对数据特征的抽象描述,它定义了数据的结构、关系和约束条件。数据模型就像是一张地图,帮助我们理解数据是如何组织、存储和相互关联的。例如,在关系型数据库中,数据模型通过表、列、主键、外键等概念来描述数据的存储结构和关系。 重要性: 数据组织与存储:为数据的有效组织和存储 阅读全文
posted @ 2024-12-17 14:28 软件职业规划 阅读(1696) 评论(0) 推荐(0)
摘要:定义与功能 定义:元数据是描述数据的数据,它提供了关于数据的内容、格式、来源、关系、质量等多方面的信息。就像图书馆的图书目录一样,元数据帮助用户在复杂的数据环境中理解、定位、管理和使用数据。 功能: 数据发现与理解:元数据帮助数据使用者了解数据的存在、位置和基本含义。例如,在一个大型企业的数据仓库中 阅读全文
posted @ 2024-12-17 14:26 软件职业规划 阅读(943) 评论(0) 推荐(0)
摘要:定义与概念 主数据(Master Data)是指在企业或组织内各个业务系统中共享的、具有高业务价值的核心业务实体数据。这些数据在整个企业范围内是一致、准确且完整的,通常是企业进行业务操作和决策的关键依据。例如,客户信息(包括客户名称、联系方式、信用等级等)、产品信息(产品编号、名称、规格、价格等)、 阅读全文
posted @ 2024-12-17 14:22 软件职业规划 阅读(1326) 评论(0) 推荐(0)
摘要:定义与目标 定义:数据治理是一个组织为确保数据的质量、一致性、安全性和合规性而采取的一系列管理活动和流程。它涉及到数据的整个生命周期,从数据的产生、采集、存储、处理到共享和销毁。 目标:主要目标包括提高数据质量,确保数据的准确性、完整性、及时性和一致性;保障数据安全,防止数据泄露、篡改和滥用;促进数 阅读全文
posted @ 2024-12-17 14:20 软件职业规划 阅读(1622) 评论(0) 推荐(0)
摘要:身份认证与访问控制 多因素认证:采用多因素认证机制,如密码、手机验证码、指纹或面部识别等组合,增加用户身份认证的安全性。 基于角色的访问控制(RBAC):通过将权限与特定角色关联,根据用户的角色分配相应的访问权限,实现数据的细粒度访问控制。 访问审计与跟踪:记录用户的访问行为,包括访问时间、访问的数 阅读全文
posted @ 2024-12-17 14:17 软件职业规划 阅读(99) 评论(0) 推荐(0)
摘要:统一存储层 存储系统选型:通常基于分布式文件系统,如Hadoop HDFS,具有高可扩展性和容错性,能应对大规模数据存储。也常采用云存储,如AWS S3,提供了按需扩展的存储资源。 数据格式支持:支持多种数据格式,结构化数据可采用Parquet、ORC等列存储格式,提升查询性能;半结构化数据以JSO 阅读全文
posted @ 2024-12-17 14:15 软件职业规划 阅读(76) 评论(0) 推荐(0)
摘要:存储资源测算 数据存储容量估算 数据湖部分:与单纯的数据湖存储类似,需要考虑数据的来源、增长速度、数据类型和存储需求差异。包括业务数据、日志文件、物联网数据等多种数据源。对于结构化数据,要考虑其表结构和记录增长;半结构化和非结构化数据则要考虑文件大小和数量的增长。例如,一个互联网公司的用户行为数据( 阅读全文
posted @ 2024-12-17 14:14 软件职业规划 阅读(87) 评论(0) 推荐(0)
摘要:数据摄入层 数据收集方式 批量摄入:这是一种常见的数据摄入方式,适用于将大量的历史数据或周期性产生的数据导入数据湖。例如,企业可以每天、每周或每月将业务系统(如ERP、CRM)中的数据以文件(如CSV、Parquet)或数据库备份的形式批量导入数据湖。这种方式可以利用ETL(抽取、转换、加载)工具, 阅读全文
posted @ 2024-12-17 14:12 软件职业规划 阅读(131) 评论(0) 推荐(0)
摘要:存储资源测算 数据量估算 历史数据和增长趋势:分析数据湖的数据来源,包括业务系统、物联网设备、社交媒体等。确定现有数据量,并预估数据的增长速度。例如,对于一个电商企业的数据湖,其用户行为数据(如浏览记录、购买记录)可能每天新增数GB,并且随着业务的拓展和用户数量的增加,增长率可能达到每月10% - 阅读全文
posted @ 2024-12-17 14:11 软件职业规划 阅读(119) 评论(0) 推荐(0)
摘要:数据源层 数据来源多样性:数据仓库的数据源非常广泛,包括企业内部的业务系统(如ERP系统、CRM系统、SCM系统等)、各种数据库(如关系型数据库、非关系型数据库)、文件系统(如日志文件、CSV文件、XML文件等),以及外部数据(如市场调研数据、社交媒体数据等)。这些数据源提供了构建数据仓库所需的原始 阅读全文
posted @ 2024-12-17 14:08 软件职业规划 阅读(174) 评论(0) 推荐(0)
摘要:数据存储容量估算 数据量增长预估:首先需要考虑数据仓库的数据来源,包括业务系统数据库、日志文件、外部数据等。分析每个数据源的数据增长速度,例如,业务系统中的交易数据可能按照每月10%的速度增长,日志文件数据可能随着用户活动的增加而线性增长。 历史数据保留策略:确定需要保留多少历史数据。不同类型的数据 阅读全文
posted @ 2024-12-17 14:06 软件职业规划 阅读(290) 评论(0) 推荐(0)
摘要:定义与概念 湖仓一体(Data Lakehouse)是一种将数据湖和数据仓库的优势相结合的新型数据架构。它既具备数据湖的灵活性和可扩展性,能够存储各种类型的原始数据,又拥有数据仓库的数据管理和数据分析能力,像数据仓库一样提供高效的数据处理、数据治理和数据安全保障机制。 湖仓一体的架构 统一存储层:采 阅读全文
posted @ 2024-12-17 14:04 软件职业规划 阅读(1414) 评论(0) 推荐(0)
摘要:定义与概念 数据湖是一个存储企业的各种各样原始数据的大型存储库,这些数据包括结构化数据(如关系数据库中的表)、半结构化数据(如XML、JSON文件)和非结构化数据(如文本文件、图像、音频、视频)。数据湖的目的是存储所有数据,而不对数据进行过多的预先处理,保留数据的原始性和完整性,以便后续根据不同的分 阅读全文
posted @ 2024-12-17 14:03 软件职业规划 阅读(1213) 评论(0) 推荐(0)
摘要:定义与概念 数据仓库是一个用于存储和管理企业数据的系统,它是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库的目的是为企业的决策支持系统(DSS)提供数据支持,帮助企业管理者进行战略决策。例如,一家连锁超市的数据仓库可以围绕销售主题、库存主题、顾客主题等来组织数据,方便管理人员分析销 阅读全文
posted @ 2024-12-17 14:01 软件职业规划 阅读(689) 评论(0) 推荐(0)
摘要:数据仓库时代 起源与背景:20世纪80年代末,企业数据处理主要依赖传统关系数据库,但在支持复杂查询和数据分析方面性能不足,为解决此问题,IBM等公司提出数据仓库概念。 技术特点: 数据整合与预处理:从多个数据源抽取、清洗、转换和加载数据,确保数据质量和一致性,存储的是经过处理的结构化数据。 面向主题 阅读全文
posted @ 2024-12-17 13:59 软件职业规划 阅读(89) 评论(0) 推荐(0)
摘要:早期探索阶段(19世纪末至20世纪70年代) 数据处理自动化的开端:1887年至1890年间,美国统计学家赫尔曼·霍尔瑞斯为统计1890年的人口普查数据发明了一台电动读取设备,极大地提升了数据处理效率。 数据存储技术的初步发展:20世纪50年代至70年代,磁带和磁盘等数据存储介质相继出现。磁带容量大 阅读全文
posted @ 2024-12-17 13:54 软件职业规划 阅读(685) 评论(0) 推荐(0)
摘要:1. 架构设计要求 1.1 具备数据架构设计的能力 能根据业务需求及数据资源设计数据模型与接口,并完成总体架构设计; 能够开发核心技术框架,并根据业务及技术需求制定开发规范; 能够进行核心业务/系统架构的规划、设计、构建;对资源进行合理分配和利用,在质量、性能和效率方面达到平衡; 能够根据业务、技术 阅读全文
posted @ 2024-12-16 14:19 软件职业规划 阅读(128) 评论(0) 推荐(0)