摘要: 引言 从KAFKA底层实现来说,主题和分区都是逻辑上的概念,分区可以有一至多个副本,每个副本对应一个日志文件夹,每个日志文件对应一至多个日志分段,每个日志分段还可以细分为索引文件、日志存储文件和快照文件等。 1.1. 主题管理 主题管理包括:创建、查看、删除和修改主题; 创建主题 使用--creat 阅读全文
posted @ 2020-11-16 10:46 lenomail 阅读(180) 评论(0) 推荐(0)
摘要: Hive学习笔记 安装部分(略): http://dblab.xmu.edu.cn/blog/2630-2/ 一、Hive基础 1.1 内部是什么 HIVE二进制分支版本核心包括3个部分, $HIVE_HOME/lib :JAR库 $HIVE_HOME/bin :执行的各种可执行文件 $HIVE_H 阅读全文
posted @ 2020-11-13 21:55 lenomail 阅读(191) 评论(0) 推荐(0)
摘要: 本文基于Kafka 0.8 1. 引言 Kafka是LinkedIn开发并开源出来的一个高吞吐的分布式消息系统。其具有以下特点: 1) 支持高Throughput的应用2) scale out:无需停机即可扩展机器3) 持久化:通过将数据持久化到硬盘以及replication防止数据丢失4) 支持o 阅读全文
posted @ 2020-11-11 14:46 lenomail 阅读(72) 评论(0) 推荐(0)
摘要: 引言 为什么要搭建该系统 Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。 活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。 活动数据包括页面访问量(page 阅读全文
posted @ 2020-11-11 11:38 lenomail 阅读(275) 评论(0) 推荐(0)
摘要: K均值聚类算法 一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定 阅读全文
posted @ 2020-11-11 10:44 lenomail 阅读(1337) 评论(0) 推荐(0)
摘要: https://wizardforcel.gitbooks.io/dm-algo-top10/content/apriori.html 阅读全文
posted @ 2020-11-10 15:22 lenomail 阅读(267) 评论(0) 推荐(0)
摘要: 一、SCD(Slowly Changing Dimensions),中文一般翻译成“缓慢变化维”。 顾名思义,缓慢变化维度(slowly changing dimension, SCD)就是数据仓库维度表中,那些随时间变化比较不明显,但仍然会发生变化的维度。考虑以下两个情境: 在员工维度表中,某员工 阅读全文
posted @ 2020-10-28 20:10 lenomail 阅读(294) 评论(0) 推荐(0)
摘要: 一、前期准备 正确的数据观 详细的调研 数据域设计 二、建设方法论 识别三种对象 建设数据类目体系 设计主题域及类目体系 三、数据资产建设的步骤 产品选择 技术方案设计 数据资源了解 数据仓库模型设计 数据开发规划制定 数据仓库建设 数据应用支撑 阅读全文
posted @ 2020-10-22 20:36 lenomail 阅读(404) 评论(0) 推荐(0)
摘要: 数据源盘点 一、数据资源的分类 按数据格式划分:结构化、半结构化、非结构化数据 按存储形式划分:数据库、文件、流、数据服务 按数据描述内容划分:实体数据、交易数据、行为数据、统计结果数据 按数据归属地划分:内部数据、外部数据 按主题划分:企业业务的核心实体和业务过程进行划分 数据资源规划 基础数据 阅读全文
posted @ 2020-10-22 20:24 lenomail 阅读(318) 评论(0) 推荐(0)
摘要: HDFS架构 HDFS架构包含三个部分:NameNode,DataNode,Client。 NameNode:NameNode用于存储、生成文件系统的元数据。运行一个实例。 DataNode:DataNode用于存储实际的数据,将自己管理的数据块上报给NameNode ,运行多个实例。 Client 阅读全文
posted @ 2020-10-22 11:42 lenomail 阅读(393) 评论(0) 推荐(0)