lenomail

2020年11月16日

摘要：引言从KAFKA底层实现来说，主题和分区都是逻辑上的概念，分区可以有一至多个副本，每个副本对应一个日志文件夹，每个日志文件对应一至多个日志分段，每个日志分段还可以细分为索引文件、日志存储文件和快照文件等。 1.1. 主题管理主题管理包括：创建、查看、删除和修改主题；创建主题使用--creat 阅读全文

posted @ 2020-11-16 10:46 lenomail 阅读(201) 评论(0) 推荐(0)

2020年11月13日

Hive笔记

摘要： Hive学习笔记安装部分（略）： http://dblab.xmu.edu.cn/blog/2630-2/ 一、Hive基础 1.1 内部是什么 HIVE二进制分支版本核心包括3个部分， $HIVE_HOME/lib ：JAR库 $HIVE_HOME/bin ：执行的各种可执行文件 $HIVE_H 阅读全文

posted @ 2020-11-13 21:55 lenomail 阅读(235) 评论(0) 推荐(0)

2020年11月11日

Apache Kafka 基础原理

摘要：本文基于Kafka 0.8 1. 引言 Kafka是LinkedIn开发并开源出来的一个高吞吐的分布式消息系统。其具有以下特点： 1) 支持高Throughput的应用2) scale out：无需停机即可扩展机器3) 持久化：通过将数据持久化到硬盘以及replication防止数据丢失4) 支持o 阅读全文

posted @ 2020-11-11 14:46 lenomail 阅读(98) 评论(0) 推荐(0)

Apache Kafka历史

摘要：引言为什么要搭建该系统 Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（activity stream）和运营数据处理管道（pipeline）的基础。活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。活动数据包括页面访问量（page 阅读全文

posted @ 2020-11-11 11:38 lenomail 阅读(294) 评论(0) 推荐(0)

数据挖掘十大算法之K均值聚类算法

摘要： K均值聚类算法一、相异度计算在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。用通俗的话说，相异度就是两个东西差别有多大，例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度，这是能我们直观感受到的。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定阅读全文

posted @ 2020-11-11 10:44 lenomail 阅读(1398) 评论(0) 推荐(0)

2020年11月10日

数据挖掘十大算法之决策树C4.5

摘要： https://wizardforcel.gitbooks.io/dm-algo-top10/content/apriori.html 阅读全文

posted @ 2020-11-10 15:22 lenomail 阅读(309) 评论(0) 推荐(0)

2020年10月28日

数仓维度模型

摘要：一、SCD（Slowly Changing Dimensions），中文一般翻译成“缓慢变化维”。顾名思义，缓慢变化维度（slowly changing dimension, SCD）就是数据仓库维度表中，那些随时间变化比较不明显，但仍然会发生变化的维度。考虑以下两个情境：在员工维度表中，某员工阅读全文

posted @ 2020-10-28 20:10 lenomail 阅读(337) 评论(0) 推荐(0)

2020年10月22日

数据资产建设

摘要：一、前期准备正确的数据观详细的调研数据域设计二、建设方法论识别三种对象建设数据类目体系设计主题域及类目体系三、数据资产建设的步骤产品选择技术方案设计数据资源了解数据仓库模型设计数据开发规划制定数据仓库建设数据应用支撑阅读全文

posted @ 2020-10-22 20:36 lenomail 阅读(419) 评论(0) 推荐(0)

数据源盘点与规划

摘要：数据源盘点一、数据资源的分类按数据格式划分：结构化、半结构化、非结构化数据按存储形式划分：数据库、文件、流、数据服务按数据描述内容划分：实体数据、交易数据、行为数据、统计结果数据按数据归属地划分：内部数据、外部数据按主题划分：企业业务的核心实体和业务过程进行划分数据资源规划基础数据阅读全文

posted @ 2020-10-22 20:24 lenomail 阅读(322) 评论(0) 推荐(0)

HDFS的架构

摘要： HDFS架构 HDFS架构包含三个部分：NameNode，DataNode，Client。 NameNode：NameNode用于存储、生成文件系统的元数据。运行一个实例。 DataNode：DataNode用于存储实际的数据，将自己管理的数据块上报给NameNode ，运行多个实例。 Client 阅读全文

posted @ 2020-10-22 11:42 lenomail 阅读(423) 评论(0) 推荐(0)

公告