Fork me on GitHub

随笔分类 -  大数据生态

新人大数据组件学习记录
摘要:数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同 阅读全文
posted @ 2020-08-10 15:55 园狐 阅读(900) 评论(0) 推荐(0)
摘要:hadoop集群启动 cd /export/servers/hadoop-2.7.5/ sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver 三个端口查看界面 http://node 阅读全文
posted @ 2020-08-08 08:04 园狐 阅读(276) 评论(0) 推荐(0)
摘要:1. MapReduce的思想核心是“分而治之” Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对map阶段的结果进行全局汇总。 MapReduce运行在yarn集群 Resour 阅读全文
posted @ 2020-08-06 20:01 园狐 阅读(317) 评论(0) 推荐(0)
摘要:1. 创建 Maven 工程 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <a 阅读全文
posted @ 2020-08-05 21:00 园狐 阅读(886) 评论(0) 推荐(1)
摘要:数据仓库 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 它出于分析性报告和决策支持目的而创建。 数据仓库与数据库区别 数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区 阅读全文
posted @ 2020-08-05 09:48 园狐 阅读(413) 评论(0) 推荐(0)
摘要:#yarn 介绍 yarn主要就是为了调度资源,管理任务等。 YARN总体上是Master/Slave结构,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等几个组件构成。 ResourceManager(RM) 负责处理客户端请 阅读全文
posted @ 2020-08-05 09:14 园狐 阅读(401) 评论(0) 推荐(0)
摘要:1.hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了**hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚 阅读全文
posted @ 2020-08-05 08:32 园狐 阅读(277) 评论(0) 推荐(0)
摘要:一、Flume 采集数据会丢失吗? Flume不会丢失数据,根据Flume的架构原理,其内部有完善的事务机制,Source到Channel是事务性的,Channel到Sink也是事务性的,因此这两个环节不会出现数据的丢失; 唯一可能丢失数据的情况是Channel采用memoryChannel,age 阅读全文
posted @ 2020-08-04 16:35 园狐 阅读(334) 评论(0) 推荐(0)
摘要:[资料】(https://github.com/jast90/awesome-learning/issues/1)) Hbase 使用场景和成功案例 Hbase是一种数据库:Hadoop分布式数据库 HBase 应用场景 -1、用户画像 比如大型的视频网站,电商平台产生的用户点击行为、浏览行为等等存 阅读全文
posted @ 2020-08-03 21:58 园狐 阅读(1062) 评论(0) 推荐(0)
摘要:应用场景 缓冲作用!!! # 队列Queue 一种特殊的线性表(数据元素首尾相接),特殊之处在于只允许在首部删除元素和在尾部追加元素(FIFO)。入队、出队。 # 消息队列MQ 消息+队列,保存消息的队列。消息的传输过程中的容器;主要提供生产、消费接口供外部调用做数据的存储和获取。 集群搭建-kaf 阅读全文
posted @ 2020-08-03 10:36 园狐 阅读(1013) 评论(0) 推荐(0)
摘要:Sqoop 基本概念 Apache Sqoop是一个性能高、易用、灵活的数据导入导出工具,在关系型数据库与Hadoop之间搭建了一个桥梁。 # 应用场景 需要将HDFS或Hive上的数据导出到传统关系型数据库中(如MySQL、Oracle等),或者将传统关系型数据库中的数据导入到HDFS或Hive上 阅读全文
posted @ 2020-08-02 17:27 园狐 阅读(778) 评论(0) 推荐(0)
摘要:组件版本 jdk-8u261-linux-x64 centOS 7.6 Cloudera Manager: 6.2.1 CDH: 6.2.1 Hadoop:3.0.0-cdh6.2.1 HBase:2.1.0-cdh6.2.1 Hive:2.1.1-cdh6.2.1 Kafka:2.1.1-cdh6 阅读全文
posted @ 2020-07-28 22:45 园狐 阅读(4117) 评论(3) 推荐(1)
摘要:集群Linux环境搭建 组件版本 centOS 7.6 jdk 1.8 zookeeper 3.4.9 Hadoop 2.7.5 mysql 驱动 mysql-connector-java-5.1.38.jar hive 2.1.1 sqoop kafka2.11 Hbase1.4.9 Sqoop1 阅读全文
posted @ 2020-07-28 22:05 园狐 阅读(415) 评论(0) 推荐(0)
摘要:大数据架构 源数据层(原始数据存储位置) sdk日志埋点 日志文件:爬虫日志、业务日志 关系型数据库:mysql,oracle等 数据采集层(抽取源数据至数据存储层) 离线:flume、Sqoop、Nifi 实时:filebeat、nginx+lua 补充:当数据量达到5亿左右的时候,filebea 阅读全文
posted @ 2020-07-28 17:48 园狐 阅读(953) 评论(0) 推荐(0)
摘要:Kudu 的应用场景是什么? 设计一个项目,分析其特点,设计方案,选取最佳处理方案 需求:做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析 项目特点 1. 数据量大 - 有一个非常重大的挑战, 就是这些设备可能很多, 其所产生的事件记录可能也很大, 所以需要对设备进行数据收集和分析的话, 阅读全文
posted @ 2020-07-28 16:28 园狐 阅读(421) 评论(0) 推荐(0)