大数据生态 - 随笔分类 - 园狐

网站流量日志分析（模块开发——数据仓库设计）

摘要：数仓设计维度建模以维度为标准开展数据的分析需求适用于面向分析领域的理论。比如分析型数据库数据仓库数据集市（OLAP）事实表分析主题的客观事件度量是分析主题的数据聚集事实表中一条记录往往对应着客观的一个事件往往是一堆主键的聚集维度表所谓的维度就是指看待问题的角度可以通过不同阅读全文

posted @ 2020-08-10 15:55 园狐阅读(903) 评论(0) 推荐(0)

Hadoop 核心-HDFS基础

摘要：hadoop集群启动 cd /export/servers/hadoop-2.7.5/ sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver 三个端口查看界面 http://node 阅读全文

posted @ 2020-08-08 08:04 园狐阅读(277) 评论(0) 推荐(0)

MapReduce 入门与 WordCount 讲解

摘要：1. MapReduce的思想核心是“分而治之” Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即对map阶段的结果进行全局汇总。 MapReduce运行在yarn集群 Resour 阅读全文

posted @ 2020-08-06 20:01 园狐阅读(322) 评论(0) 推荐(0)

创建 hive 用户自定义函数UDF,UDTF,UDAF

摘要：1. 创建 Maven 工程 <dependencies>  <dependency> <groupId>org.apache.hive</groupId> <a 阅读全文

posted @ 2020-08-05 21:00 园狐阅读(893) 评论(0) 推荐(1)

数据仓库

摘要：数据仓库英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库与数据库区别数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区阅读全文

posted @ 2020-08-05 09:48 园狐阅读(416) 评论(0) 推荐(0)

yarn 资源调度

摘要：#yarn 介绍 yarn主要就是为了调度资源，管理任务等。 YARN总体上是Master/Slave结构，主要由ResourceManager、NodeManager、 ApplicationMaster和Container等几个组件构成。 ResourceManager(RM) 负责处理客户端请阅读全文

posted @ 2020-08-05 09:14 园狐阅读(402) 评论(0) 推荐(0)

hive 基础与进阶

摘要：1.hive介绍 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了**hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚阅读全文

posted @ 2020-08-05 08:32 园狐阅读(285) 评论(0) 推荐(0)

Flume 面试

摘要：一、Flume 采集数据会丢失吗? Flume不会丢失数据，根据Flume的架构原理，其内部有完善的事务机制，Source到Channel是事务性的，Channel到Sink也是事务性的，因此这两个环节不会出现数据的丢失；唯一可能丢失数据的情况是Channel采用memoryChannel，age 阅读全文

posted @ 2020-08-04 16:35 园狐阅读(341) 评论(0) 推荐(0)

Hbase 搭建与入门

摘要：[资料】（https://github.com/jast90/awesome-learning/issues/1）） Hbase 使用场景和成功案例 Hbase是一种数据库：Hadoop分布式数据库 HBase 应用场景 -1、用户画像比如大型的视频网站，电商平台产生的用户点击行为、浏览行为等等存阅读全文

posted @ 2020-08-03 21:58 园狐阅读(1063) 评论(0) 推荐(0)

kafka搭建与应用案例

摘要：应用场景缓冲作用！！！ # 队列Queue 一种特殊的线性表（数据元素首尾相接），特殊之处在于只允许在首部删除元素和在尾部追加元素（FIFO）。入队、出队。 # 消息队列MQ 消息+队列，保存消息的队列。消息的传输过程中的容器；主要提供生产、消费接口供外部调用做数据的存储和获取。集群搭建-kaf 阅读全文

posted @ 2020-08-03 10:36 园狐阅读(1022) 评论(0) 推荐(0)

Sqoop 数据迁移

摘要：Sqoop 基本概念 Apache Sqoop是一个性能高、易用、灵活的数据导入导出工具，在关系型数据库与Hadoop之间搭建了一个桥梁。 # 应用场景需要将HDFS或Hive上的数据导出到传统关系型数据库中（如MySQL、Oracle等），或者将传统关系型数据库中的数据导入到HDFS或Hive上阅读全文

posted @ 2020-08-02 17:27 园狐阅读(784) 评论(0) 推荐(0)

CDH 安装与部署

摘要：组件版本 jdk-8u261-linux-x64 centOS 7.6 Cloudera Manager: 6.2.1 CDH: 6.2.1 Hadoop:3.0.0-cdh6.2.1 HBase:2.1.0-cdh6.2.1 Hive:2.1.1-cdh6.2.1 Kafka:2.1.1-cdh6 阅读全文

posted @ 2020-07-28 22:45 园狐阅读(4122) 评论(3) 推荐(1)

Apache Hadoop集群搭建

摘要：集群Linux环境搭建组件版本 centOS 7.6 jdk 1.8 zookeeper 3.4.9 Hadoop 2.7.5 mysql 驱动 mysql-connector-java-5.1.38.jar hive 2.1.1 sqoop kafka2.11 Hbase1.4.9 Sqoop1 阅读全文

posted @ 2020-07-28 22:05 园狐阅读(416) 评论(0) 推荐(0)

大数据架构与技术选型

摘要：大数据架构源数据层(原始数据存储位置) sdk日志埋点日志文件：爬虫日志、业务日志关系型数据库：mysql,oracle等数据采集层(抽取源数据至数据存储层) 离线：flume、Sqoop、Nifi 实时：filebeat、nginx+lua 补充：当数据量达到5亿左右的时候，filebea 阅读全文

posted @ 2020-07-28 17:48 园狐阅读(958) 评论(0) 推荐(0)

项目落实方案选择思考（KUDU）

摘要：Kudu 的应用场景是什么? 设计一个项目，分析其特点，设计方案，选取最佳处理方案需求：做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点 1. 数据量大 - 有一个非常重大的挑战, 就是这些设备可能很多, 其所产生的事件记录可能也很大, 所以需要对设备进行数据收集和分析的话, 阅读全文

posted @ 2020-07-28 16:28 园狐阅读(422) 评论(0) 推荐(0)

园狐

谋定而后动，知止而有得。

随笔分类 - 大数据生态

公告