随笔分类 -  大数据

摘要:转自 https://blog.csdn.net/qq_18581221/article/details/89766073 简介 在使用kafka时,大多数场景对于数据少量的不一致(重复或者丢失)并不关注,比如日志,因为不会影响最终的使用或者分析,但是在某些应用场景(比如业务数据),需要对任何一条消 阅读全文
posted @ 2019-10-16 11:59 yn_huang 阅读(10482) 评论(0) 推荐(1)
摘要:1.预览 1.1 消费者组(Consumer Group) 一个consumer group可能有若干个consumer实例 同一个group里面,topic的每条信息只能被发送到group下的一个consumer实例 topic消息可以被发送到多个group 为什么需要consumer group 阅读全文
posted @ 2019-05-28 12:33 yn_huang 阅读(836) 评论(0) 推荐(0)
摘要:1.producer端的基本数据结构 1.ProducerRecord 一个ProducerRecord封装了一条待发送的消息 ProducerRecord允许用户再创建消息对象的时候直接指定要发送的分区 2.RecordMetadata 该数据结构表示Kafka服务端返回给客户端的消息的元数据信息 阅读全文
posted @ 2019-05-26 11:23 yn_huang 阅读(438) 评论(0) 推荐(0)
摘要:1.消息交付语义 client端常见的3钟消息交付语义: 最多一次:消息可能丢失也可能被处理,但最多只会被处理一次。 至少一次:消息不会丢失,但可能被处理多次 精确一次:消息被处理且只会被处理一次 在0.11.0.0版本之前,Kafka producer默认提供的是at least once语义。设 阅读全文
posted @ 2019-05-25 14:37 yn_huang 阅读(1120) 评论(0) 推荐(1)
摘要:本文转自 CSDN GitChat的博客 https://blog.csdn.net/valada/article/details/80892612 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构,是大型分布式系统不可缺 阅读全文
posted @ 2019-04-29 18:54 yn_huang
摘要:硬件平台介绍 集群总共包括三台电脑,一台主机两台从机,电脑名称和名称对应关系如下: hadoop-master 大电脑 hadoop-slave1 一体机 hadoop-slave2 台式机 各个主机通过路由器组件局域网,通常路由器会给每个主机分配固定的IP地址,在Ubuntu终端下,可以使用ifc 阅读全文
posted @ 2019-02-16 19:51 yn_huang 阅读(476) 评论(0) 推荐(0)
摘要:一、前言 在 Spark 事件总线 一篇中有介绍组件内之间的通信,那 Spark 集群内,各组件之间又是怎么通信的? Spark 有内置的 RPC 框架(在 Spark 2.0.0 之前,是借助 Akka 来实现的,虽然没有具体用过,但社区评论都赞 Akka 是非常优秀的开源分布式框架。那 Spar 阅读全文
posted @ 2018-09-30 09:26 yn_huang 阅读(553) 评论(0) 推荐(0)
摘要:1.Shuffle原理概述 什么样的情况下,会发生shuffle? 在spark中,主要是以下几个算子:groupByKey、reduceByKey、countByKey、join,等等。 什么是shuffle? groupByKey:要把分布在集群各个节点上的数据中的同一个key,对应的value 阅读全文
posted @ 2018-09-12 09:14 yn_huang 阅读(7039) 评论(0) 推荐(1)
摘要:1、在实际项目中分配更多的资源 分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上, 阅读全文
posted @ 2018-09-09 09:17 yn_huang 阅读(474) 评论(0) 推荐(0)
摘要:了解HBase的童鞋都知道,HBase是一种LSM(Log-Structured Merge Tree)架构模式,用户数据写入先写WAL,再写缓存,满足一定条件后缓存数据会执行flush操作真正落盘,形成一个数据文件HFile。随着数据写入不断增多,flush次数也会不断增多,进而HFile数据文件 阅读全文
posted @ 2018-06-10 22:58 yn_huang 阅读(440) 评论(0) 推荐(0)
摘要:HBase与传统关系型数据库(如MySQL)的区别 数据类型:没有数据类型,都是字节数组(有一个工具类Bytes,将java对象序列化为字节数组)。数据操作:HBase只有很简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系,而传统数据库通常有各式各样的函数和连接操作 阅读全文
posted @ 2018-06-06 22:44 yn_huang 阅读(1045) 评论(0) 推荐(0)
摘要:1. YARN产生背景 MapReduce本身存在着一些问题: 1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 2)JobTracker承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如Stor 阅读全文
posted @ 2018-05-24 21:59 yn_huang 阅读(2610) 评论(0) 推荐(0)
摘要:1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1.2 Job提交流程源码和切片源码详解 Job提交流程源码详解 2. MapReduce工作流程 2.1 流程示意图 2.2 流程详解 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步 阅读全文
posted @ 2018-05-20 19:36 yn_huang 阅读(367) 评论(0) 推荐(0)