12 2020 档案
摘要:1.Hadoop入门之部署篇 2.Hadoop之HDFS(一)概述与常用Shell操作 3.Hadoop之HDFS(二)HDFS工作机制和集群安全模式 4.Hadoop之HDFS(三)HDFS API操作示例和读写流程 5.Hadoop之MapReduce(一)初识 6.Hadoop之MapRedu
阅读全文
posted @ 2020-12-30 16:41
leafgood
摘要:1.MapReduce介绍 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce的作用就是大
阅读全文
posted @ 2020-12-30 16:39
leafgood
摘要:1.HDFS API示例 1.1 Client API 1)准备工作 本人习惯使用Ubuntu,ide工具则是idea,如果是windows系统或者eclipse自行百度吧,我没有试过。 老套路,创建Maven工程,导入依赖 <dependencies> <dependency> <groupId>
阅读全文
posted @ 2020-12-30 16:38
leafgood
摘要:1 NameNode和DataNode之间的心跳机制 1)NameNode启动时,会启动一个IPC server服务, 2)DataNode启动后会主动连接NameNode的IP server服务,默认每隔3秒连接一次,也就是心跳。 这个时间可以通过 dfs.heartbeat.interval参数
阅读全文
posted @ 2020-12-30 16:35
leafgood
摘要:1.HDFS概述 1.1 HDFS简介 HDFS(Hadoop Distributed File System) ,Hadoop分布式文件系统,用来解决海量数据的存储问题。 1.2 HDFS的特点 优势 高容错性:HDFS多副本分布式存储,当一个副本丢失了,能够自动恢复,所以HDFS具有高容错性,默
阅读全文
posted @ 2020-12-30 16:34
leafgood
摘要:1.Zookeeper概述与部署 2.Zookeeper原理 3.利用Zookeeper实现Hadoop HA
阅读全文
posted @ 2020-12-27 13:11
leafgood
摘要:一.Zookeepr概述 1.1 Zookeeper介绍 介绍Zookeeper之前,先说这样一个场景。 假定有三台服务器A、B、C组成的分布式系统,在A机器上有一个资源RS,A、B、C三个服务器上的进程都要竞争这个资源,而因为业务需要,同一个时刻,只能有一个进程访问该资源,那么如何去做? 那就加锁
阅读全文
posted @ 2020-12-27 11:49
leafgood
摘要:Flume内置拦截器 官方文档 http://flume.apache.org/FlumeUserGuide.html Timestamp Interceptor、Host Interceptor、Static Interceptor等等,可以直接拿来用, 以Timestamp Intercepto
阅读全文
posted @ 2020-12-26 19:21
leafgood
摘要:1.Flume 事务 Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。 在Source到Channel之间的叫put事务,在Channel到Sink之间的叫Take事务。 事务两个特性就是:成功了提交,失败了回滚。 1.1 put事务
阅读全文
posted @ 2020-12-26 16:55
leafgood
摘要:1 Flume source常用类型 1.1 Avro Source 1.1.1 概述 文档定义: Listens on Avro port and receives events from external Avro client streams. When paired with the bui
阅读全文
posted @ 2020-12-26 12:00
leafgood
摘要:一.Flume基础 二.Flume Source 三.Flume 事务和内部原理 四.Flume 拦截器
阅读全文
posted @ 2020-12-26 09:31
leafgood
摘要:1.Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 2.Flume基础组成 2.1 Agent F
阅读全文
posted @ 2020-12-26 09:27
leafgood
摘要:Hadoop概述与部署 参考: http://hadoop.apache.org/docs/r3.1.3/index.html 1.Hadoop概述 什么是Hadoop? Hadoop是由Apache基金会开发的分布式系统基础架构,用来解决海量数据的存储和分析计算问题。 Hadoop的优势 高可靠:
阅读全文
posted @ 2020-12-16 15:41
leafgood

浙公网安备 33010602011771号