hwloser

2019年11月19日

摘要： hadoop(离线数据分析处理) Spark 实时数据 1. 构建Hadoop集群 2. HDFS操作与编程 3. MapReduce程序设计及优化 4. MapReduce高级应用及 1. 方便 hadoop的优势： 2. 弹性易扩展和卸载 3. 健壮自动恢复和监测 4. 简单编写并行分布式阅读全文

posted @ 2019-11-19 14:41 hwloser 阅读(236) 评论(0) 推荐(0)

hadoop详解

摘要： HDFS架构 Block数据块： 1. 基本存储单位，一般为64M（配置大的快主要是因为： 1）减少搜寻时间，一般硬盘传输速率比寻道时间快，大的块可以减少寻道时间； 2）减少管理块的数据开销，每个块都需要在NameNode上有对应的记录 3）对数据块进行读写，减少建立网络的连接成本 2. 一个阅读全文

posted @ 2019-11-19 14:39 hwloser 阅读(327) 评论(0) 推荐(0)

2019年11月18日

kafka简述

摘要： Kafka详解 kafka是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特点就是可以实时处理大数据以满足各种需求场景:比如基于hadoop的批处理系统,低延迟的实时系统,storm/spark流式处理引擎,web/n 阅读全文

posted @ 2019-11-18 11:00 hwloser 阅读(184) 评论(0) 推荐(0)

zookeeper简述

摘要： zookeeper中的各种角色 1. leader：领导者负责进行投票的发起和决议，更新系统状态 2. learner： 1. folloer：follower用于接收客户请求并向客户端返回结果，在选主过程中参与投票 2. Observer：Observer可以接收客户端连接，将写请求转发给lead 阅读全文

posted @ 2019-11-18 09:30 hwloser 阅读(253) 评论(0) 推荐(0)

公告