摘要: hadoop(离线数据分析处理) Spark 实时数据 1. 构建Hadoop集群 2. HDFS操作与编程 3. MapReduce程序设计及优化 4. MapReduce高级应用及 1. 方便 hadoop的优势: 2. 弹性 易扩展和卸载 3. 健壮 自动恢复和监测 4. 简单 编写并行分布式 阅读全文
posted @ 2019-11-19 14:41 hwloser 阅读(234) 评论(0) 推荐(0)
摘要: HDFS架构 Block数据块: 1. 基本存储单位,一般为64M(配置大的快主要是因为: 1) 减少搜寻时间,一般硬盘传输速率比寻道时间快,大的块可以减少寻道时间; 2) 减少管理块的数据开销,每个块都需要在NameNode上有对应的记录 3) 对数据块进行读写,减少建立网络的连接成本 2. 一个 阅读全文
posted @ 2019-11-19 14:39 hwloser 阅读(327) 评论(0) 推荐(0)
摘要: Kafka详解 kafka是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特点就是可以实时处理大数据以满足各种需求场景:比如基于hadoop的批处理系统,低延迟的实时系统,storm/spark流式处理引擎,web/n 阅读全文
posted @ 2019-11-18 11:00 hwloser 阅读(182) 评论(0) 推荐(0)
摘要: zookeeper中的各种角色 1. leader:领导者负责进行投票的发起和决议,更新系统状态 2. learner: 1. folloer:follower用于接收客户请求并向客户端返回结果,在选主过程中参与投票 2. Observer:Observer可以接收客户端连接,将写请求转发给lead 阅读全文
posted @ 2019-11-18 09:30 hwloser 阅读(239) 评论(0) 推荐(0)