摘要:
Using Bulk Processor The BulkProcessor class offers a simple interface to flush bulk operations automatically based on the number or size of requests,
阅读全文
posted @ 2020-02-24 14:58
大数据从业者FelixZh
阅读(1213)
推荐(0)
摘要:
简单回顾门面模式 slf4j是门面模式的典型应用,所谓门面模式,其核心为外部与一个子系统的通信必须通过一个统一的外观对象进行,使得子系统更易于使用。 用一张图来表示门面模式的结构为: 门面模式的核心为Facade即门面对象,门面对象核心为几个点: 知道所有子角色的功能和责任 将客户端发来的请求委派到
阅读全文
posted @ 2020-02-20 15:00
大数据从业者FelixZh
阅读(581)
推荐(0)
摘要:
Authorizing Kafka access over non-authenticated channel via Ranger This section answers some questions one is likely to encounter when trying to autho
阅读全文
posted @ 2020-02-04 14:49
大数据从业者FelixZh
阅读(423)
推荐(0)
摘要:
I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi
阅读全文
posted @ 2020-01-09 11:31
大数据从业者FelixZh
阅读(534)
推荐(1)
摘要:
https://cwiki.apache.org/confluence/display/KAFKA/Clients 转至元数据结尾 由 Jun Rao创建, 最终由 Dongjin Lee修改于 十月 21, 2019 转至元数据起始 How The Kafka Project Handles Cl
阅读全文
posted @ 2020-01-09 10:50
大数据从业者FelixZh
阅读(1424)
推荐(0)
摘要:
一.说明 在大数据平台的业务场景中,处理实时kafka数据流数据,以成为必要的能力;此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 a).选择ConsumeKafka_0_10 b).配置ConsumeKaf
阅读全文
posted @ 2020-01-04 17:30
大数据从业者FelixZh
阅读(2320)
推荐(0)
摘要:
一.说明 将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用,在此场景中需要将mysql导出的avro数据格式转化为json入库HBase 二.开拔 Ⅰ).配置ExecuteSQLRecord a).选择ExecuteSQLRecord b).配置ExecuteSQLRecor
阅读全文
posted @ 2020-01-04 17:26
大数据从业者FelixZh
阅读(1361)
推荐(0)
摘要:
1).配置ExecuteSQLRecord a).选择ExecuteSQLRecord b).配置ExecuteSQLRecord c).创建DBCPConnectionPool d).配置DBCPConnectionPool e).激活服务 f).选择JsonRecordSetWriter g).
阅读全文
posted @ 2019-12-31 15:14
大数据从业者FelixZh
阅读(2292)
推荐(0)
摘要:
作者:李锐 介绍:阿里巴巴技术专家,Apache Hive PMC,加入阿里巴巴之前曾就职于 Intel、IBM 等公司,主要参与 Hive、HDFS、Spark 等开源项目。 Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hiv
阅读全文
posted @ 2019-12-27 15:20
大数据从业者FelixZh
阅读(1189)
推荐(0)
摘要:
1 概述 解决hadoop启动hdfs时,datanode无法启动的问题。错误为: 2 问题描述 执行start-dfs.sh后,根据打印日志,可以看到分别执行了NameNode、DataNode的操作。 但是执行jps查看启动结果时,返现DataNode并没有启动。 3 查找问题 很是费解,刚刚还
阅读全文
posted @ 2019-12-19 19:58
大数据从业者FelixZh
阅读(1799)
推荐(0)
摘要:
背景:对于其他数据存储系统来说,统计表的行数是再基本不过的操作了,一般实现都非常简单;但对于HBase这种key-value存储结构的列式数据库,统计 RowCount 的方法却有好几种不同的花样,并且执行效率差别巨大!下面来研究下吧~ 测试集群:HBase1.2.0 - CDH5.13.0 四台服
阅读全文
posted @ 2019-12-19 19:54
大数据从业者FelixZh
阅读(4278)
推荐(1)
摘要:
What kind of FileChannel object does the FileChannel.open(path) method return? Is it still random access allowed as if it was as following? What's the
阅读全文
posted @ 2019-12-09 20:07
大数据从业者FelixZh
阅读(495)
推荐(0)
摘要:
1、两种获取通道的方法FileChannel.open()的方式 path获取 OpenOption接口的实现类通常由StandardOpenOption枚举进行代替。 从io流中获得通道getChannel() 2、read 3、write 4、获取和设置通道的位置、大小 5、long trans
阅读全文
posted @ 2019-12-09 19:59
大数据从业者FelixZh
阅读(1833)
推荐(0)
摘要:
在Java中当我们要对数据进行更底层的操作时,一般是操作数据的字节(byte)形式,这时经常会用到ByteBuffer这样一个类。 ByteBuffer提供了两种静态实例方式: 为什么要提供两种方式呢?这与Java的内存使用机制有关。 第一种分配方式产生的内存开销是在JVM中的,而另外一种的分配方式
阅读全文
posted @ 2019-12-09 19:37
大数据从业者FelixZh
阅读(3878)
推荐(2)
摘要:
https://bbs.huaweicloud.com/blogs/112956 版权归PUMA项目组所有,转载请声明,多谢。 kakfa大规模集群能力在前面已给大家分享过,kafka作为消息总线,在支撑云千万tps上千节点的集群能力非常出色,本文继续对业界关于单机多topic的性能瓶颈点问题(比如
阅读全文
posted @ 2019-12-07 10:43
大数据从业者FelixZh
阅读(10239)
推荐(5)
摘要:
前言:大部分多线程同步场景,在功能和性能层面,synchronized可以满足,少部分场景Lock可以满足,dubbo的源码也符合这个比例,需要使用到Condition的场景极少,整个dubbo源码中只在启动函数中,服务关闭这一处使用到了Lock+Condition机制。 1.Lock+Condit
阅读全文
posted @ 2019-12-06 16:18
大数据从业者FelixZh
阅读(806)
推荐(0)
摘要:
You are probably using Android Studio or IntelliJ. If so, you can add this above your method containing the infinite loop to suppress warnings: Or add
阅读全文
posted @ 2019-12-04 14:51
大数据从业者FelixZh
阅读(3757)
推荐(0)
摘要:
在Java并发编程中,公平锁与非公平锁是很常见的概念,ReentrantLock、ReadWriteLock默认都是非公平模式。 非公平锁的效率为何高于公平锁呢?究竟公平与非公平有何区别呢? 首先,先简单从名字上来理解,公平锁就是保障了多线程下各线程获取锁的顺序,先到的线程优先获取锁,而非公平锁则无
阅读全文
posted @ 2019-12-03 20:18
大数据从业者FelixZh
阅读(835)
推荐(0)
摘要:
Semaphore类有两个重要方法 1、semaphore.acquire(); 请求一个信号量,这时候信号量个数-1,当减少到0的时候,下一次acquire不会再执行,只有当执行一个release()的时候,信号量不为0的时候才可以继续执行acquire 2、semaphore.release()
阅读全文
posted @ 2019-12-02 16:54
大数据从业者FelixZh
阅读(702)
推荐(0)
摘要:
我们都知道kafka利用zookeeper做分布式管理,具体创建使用了哪些znode节点呢? 答案均在源码的ZkData.scala文件中,具体路径如下: https://github.com/apache/kafka/edit/2.1/core/src/main/scala/kafka/zk/Zk
阅读全文
posted @ 2019-12-02 14:30
大数据从业者FelixZh
阅读(751)
推荐(0)
摘要:
引言按照Kafka默认的消费逻辑设定,一个分区只能被同一个消费组(ConsumerGroup)内的一个消费者消费。假设目前某消费组内只有一个消费者C0,订阅了一个topic,这个topic包含7个分区,也就是说这个消费者C0订阅了7个分区,参考下图(1)。 此时消费组内又加入了一个新的消费者C1,按
阅读全文
posted @ 2019-11-26 15:13
大数据从业者FelixZh
阅读(4239)
推荐(0)
摘要:
每一个分区都是一个顺序的、不可变的消息队列,并且可以持续的添加。分区中的消息都被分配了一个序列号,称之为偏移量(offset),在每个分区中此偏移量都是唯一的。一个分区在文件系统里存储为一个文件夹。文件夹里包含日志文件和索引文件。其文件名是其包含的offset的最小的条目的offset。 每个文件是
阅读全文
posted @ 2019-11-25 11:06
大数据从业者FelixZh
阅读(6583)
推荐(0)
摘要:
ScheduledThreadPoolExecutor是Timer的多线程实现版本,JDK官方推荐使用。ScheduledThreadPoolExecutor用于替代Timer。是接口ScheduledExecutorService的子类,主要方法说明如下: 示例代码: java.util.Time
阅读全文
posted @ 2019-11-20 17:16
大数据从业者FelixZh
阅读(2264)
推荐(0)
摘要:
1. CyclicBarrier 是什么? 从字面上的意思可以知道,这个类的中文意思是“循环栅栏”。大概的意思就是一个可循环利用的屏障。 它的作用就是会让所有线程都等待完成后才会继续下一步行动。 举个例子,就像生活中我们会约朋友们到某个餐厅一起吃饭,有些朋友可能会早到,有些朋友可能会晚到,但是这个餐
阅读全文
posted @ 2019-11-19 15:34
大数据从业者FelixZh
阅读(378)
推荐(0)
摘要:
1.背景: countDownLatch是在java1.5被引入,跟它一起被引入的工具类还有CyclicBarrier、Semaphore、concurrentHashMap和BlockingQueue。 存在于java.util.cucurrent包下。 2.概念 countDownLatch这个
阅读全文
posted @ 2019-11-19 15:20
大数据从业者FelixZh
阅读(353)
推荐(0)
摘要:
AtomicBoolean是java.util.concurrent.atomic的原子变量的类;可以看到下面还有很多类似的Atomic这样的类,如下图所示 这样的类具有原子性,在多线程的环境下使用是线程安全的;举个例子,在多线程环境中,我们通过判断一个boolan变量的值,然后修改该变量的值,之后
阅读全文
posted @ 2019-11-19 10:34
大数据从业者FelixZh
阅读(1248)
推荐(0)
摘要:
先进入源码工程:执行gradle idea或者gradle eclipse 之后再导入idea/eclipse
阅读全文
posted @ 2019-11-18 10:11
大数据从业者FelixZh
阅读(576)
推荐(0)
摘要:
Doug Lea 在 Scalable IO in Java 的 PPT 中描述了 Reactor 编程模型的思想,大部分 NIO 框架和一些中间件的 NIO 编程都与它一样或是它的变体。本文结合 PPT 按照自己的理解整理而来,最终编写了一个简单的 NIO 回显服务。 Reactor 之所以高效是
阅读全文
posted @ 2019-11-15 15:23
大数据从业者FelixZh
阅读(367)
推荐(1)
摘要:
1.Reactor单线程模型 传统的javaNIO通信的线程模型。该线程模型仅有一个I/O线程处理所有的I/O操作,如下图: 单线程模型的Reactor 所有的客户端都连接到一个I/O线程负责的Acceptor上,连接成功后,由Reactor里的Dispatch将接收的ByteBuffer分发到指定
阅读全文
posted @ 2019-11-15 15:20
大数据从业者FelixZh
阅读(421)
推荐(0)
摘要:
本文重点介绍kafka的两类常见数据迁移方式: 1、broker内部不同数据盘之间的分区数据迁移; 2、不同broker之间的分区数据迁移。 一、broker 内部不同数据盘之间进行分区数据迁移 1.1 背景介绍 kafka broker内部的topic分区数据存储分布不均匀,导致部分磁盘100%耗
阅读全文
posted @ 2019-11-15 14:10
大数据从业者FelixZh
阅读(1320)
推荐(0)