大数据从业者FelixZh

2020年2月24日

elasticsearch es java api Using Bulk Processor

摘要： Using Bulk Processor The BulkProcessor class offers a simple interface to flush bulk operations automatically based on the number or size of requests, 阅读全文

posted @ 2020-02-24 14:58 大数据从业者FelixZh 阅读(1213) 评论(0) 推荐(0)

2020年2月20日

Java日志框架slf4j剖析

摘要：简单回顾门面模式 slf4j是门面模式的典型应用，所谓门面模式，其核心为外部与一个子系统的通信必须通过一个统一的外观对象进行，使得子系统更易于使用。用一张图来表示门面模式的结构为：门面模式的核心为Facade即门面对象，门面对象核心为几个点：知道所有子角色的功能和责任将客户端发来的请求委派到阅读全文

posted @ 2020-02-20 15:00 大数据从业者FelixZh 阅读(581) 评论(0) 推荐(0)

2020年2月4日

ranger kafka - Authorizing Kafka access over non-authenticated channel via Ranger

摘要： Authorizing Kafka access over non-authenticated channel via Ranger This section answers some questions one is likely to encounter when trying to autho 阅读全文

posted @ 2020-02-04 14:49 大数据从业者FelixZh 阅读(423) 评论(0) 推荐(0)

2020年1月9日

Linkedin官方kafka性能压测-kafkaBenchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)

摘要： I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文

posted @ 2020-01-09 11:31 大数据从业者FelixZh 阅读(534) 评论(0) 推荐(1)

kafka clients大全：支持语言集合(java/go/python/c++……)

摘要： https://cwiki.apache.org/confluence/display/KAFKA/Clients 转至元数据结尾由 Jun Rao创建, 最终由 Dongjin Lee修改于十月 21, 2019 转至元数据起始 How The Kafka Project Handles Cl 阅读全文

posted @ 2020-01-09 10:50 大数据从业者FelixZh 阅读(1424) 评论(0) 推荐(0)

2020年1月4日

Apache NiFi之Kafka流数据到HBase

摘要：一.说明在大数据平台的业务场景中，处理实时kafka数据流数据，以成为必要的能力；此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 a).选择ConsumeKafka_0_10 b).配置ConsumeKaf 阅读全文

posted @ 2020-01-04 17:30 大数据从业者FelixZh 阅读(2320) 评论(0) 推荐(0)

Apache NiFi之MySQL数据同步到HBase

摘要：一.说明将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用，在此场景中需要将mysql导出的avro数据格式转化为json入库HBase 二.开拔 Ⅰ).配置ExecuteSQLRecord a).选择ExecuteSQLRecord b).配置ExecuteSQLRecor 阅读全文

posted @ 2020-01-04 17:26 大数据从业者FelixZh 阅读(1361) 评论(0) 推荐(0)

2019年12月31日

Apache NiFi之MySQL数据同步到本地文件系统

摘要： 1).配置ExecuteSQLRecord a).选择ExecuteSQLRecord b).配置ExecuteSQLRecord c).创建DBCPConnectionPool d).配置DBCPConnectionPool e).激活服务 f).选择JsonRecordSetWriter g). 阅读全文

posted @ 2019-12-31 15:14 大数据从业者FelixZh 阅读(2292) 评论(0) 推荐(0)

2019年12月27日

如何在 Flink 1.9 中使用 Hive？

摘要：作者：李锐介绍：阿里巴巴技术专家，Apache Hive PMC，加入阿里巴巴之前曾就职于 Intel、IBM 等公司，主要参与 Hive、HDFS、Spark 等开源项目。 Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能，用户可以通过 Flink 来访问 Hiv 阅读全文

posted @ 2019-12-27 15:20 大数据从业者FelixZh 阅读(1189) 评论(1) 推荐(0)

2019年12月19日

hadoop格式化：java.io.IOException: Incompatible clusterIDs in /home/lxh/hadoop/hdfs/data: namenode clusterID

摘要： 1 概述解决hadoop启动hdfs时，datanode无法启动的问题。错误为： 2 问题描述执行start-dfs.sh后，根据打印日志，可以看到分别执行了NameNode、DataNode的操作。但是执行jps查看启动结果时，返现DataNode并没有启动。 3 查找问题很是费解，刚刚还阅读全文

posted @ 2019-12-19 19:58 大数据从业者FelixZh 阅读(1799) 评论(1) 推荐(0)

HBase统计表行数(RowCount)的四种方法

摘要：背景：对于其他数据存储系统来说，统计表的行数是再基本不过的操作了，一般实现都非常简单；但对于HBase这种key-value存储结构的列式数据库，统计 RowCount 的方法却有好几种不同的花样，并且执行效率差别巨大！下面来研究下吧~ 测试集群：HBase1.2.0 - CDH5.13.0 四台服阅读全文

posted @ 2019-12-19 19:54 大数据从业者FelixZh 阅读(4278) 评论(0) 推荐(1)

2019年12月9日

RandomAccessFile vs FileChannel.open(path);

摘要： What kind of FileChannel object does the FileChannel.open(path) method return? Is it still random access allowed as if it was as following? What's the 阅读全文

posted @ 2019-12-09 20:07 大数据从业者FelixZh 阅读(495) 评论(0) 推荐(0)

FileChannel（API详解）

摘要： 1、两种获取通道的方法FileChannel.open()的方式 path获取 OpenOption接口的实现类通常由StandardOpenOption枚举进行代替。从io流中获得通道getChannel() 2、read 3、write 4、获取和设置通道的位置、大小 5、long trans 阅读全文

posted @ 2019-12-09 19:59 大数据从业者FelixZh 阅读(1833) 评论(1) 推荐(0)

NIO ByteBuffer的allocate与allocateDirect区别（HeapByteBuffer与DirectByteBuffer的区别）

摘要：在Java中当我们要对数据进行更底层的操作时，一般是操作数据的字节（byte）形式，这时经常会用到ByteBuffer这样一个类。 ByteBuffer提供了两种静态实例方式：为什么要提供两种方式呢？这与Java的内存使用机制有关。第一种分配方式产生的内存开销是在JVM中的，而另外一种的分配方式阅读全文

posted @ 2019-12-09 19:37 大数据从业者FelixZh 阅读(3878) 评论(0) 推荐(2)

2019年12月7日

kafka 解密：破除单机topic数多性能下降魔咒

摘要： https://bbs.huaweicloud.com/blogs/112956 版权归PUMA项目组所有，转载请声明，多谢。 kakfa大规模集群能力在前面已给大家分享过，kafka作为消息总线，在支撑云千万tps上千节点的集群能力非常出色，本文继续对业界关于单机多topic的性能瓶颈点问题（比如阅读全文

posted @ 2019-12-07 10:43 大数据从业者FelixZh 阅读(10239) 评论(1) 推荐(5)

2019年12月6日

Lock+Condition实现机制

摘要：前言：大部分多线程同步场景，在功能和性能层面，synchronized可以满足，少部分场景Lock可以满足，dubbo的源码也符合这个比例，需要使用到Condition的场景极少，整个dubbo源码中只在启动函数中，服务关闭这一处使用到了Lock+Condition机制。 1.Lock+Condit 阅读全文

posted @ 2019-12-06 16:18 大数据从业者FelixZh 阅读(806) 评论(0) 推荐(0)

2019年12月4日

'while' statement cannot complete without throwing an exception

摘要： You are probably using Android Studio or IntelliJ. If so, you can add this above your method containing the infinite loop to suppress warnings: Or add 阅读全文

posted @ 2019-12-04 14:51 大数据从业者FelixZh 阅读(3757) 评论(0) 推荐(0)

2019年12月3日

一张图读懂非公平锁与公平锁

摘要：在Java并发编程中，公平锁与非公平锁是很常见的概念，ReentrantLock、ReadWriteLock默认都是非公平模式。非公平锁的效率为何高于公平锁呢？究竟公平与非公平有何区别呢？首先，先简单从名字上来理解，公平锁就是保障了多线程下各线程获取锁的顺序，先到的线程优先获取锁，而非公平锁则无阅读全文

posted @ 2019-12-03 20:18 大数据从业者FelixZh 阅读(835) 评论(0) 推荐(0)

2019年12月2日

浅谈Semaphore类-示例

摘要： Semaphore类有两个重要方法 1、semaphore.acquire(); 请求一个信号量，这时候信号量个数-1，当减少到0的时候，下一次acquire不会再执行，只有当执行一个release()的时候，信号量不为0的时候才可以继续执行acquire 2、semaphore.release() 阅读全文

posted @ 2019-12-02 16:54 大数据从业者FelixZh 阅读(702) 评论(0) 推荐(0)

kafka在zookeeper创建使用了哪些znode节点？

摘要：我们都知道kafka利用zookeeper做分布式管理，具体创建使用了哪些znode节点呢？答案均在源码的ZkData.scala文件中，具体路径如下： https://github.com/apache/kafka/edit/2.1/core/src/main/scala/kafka/zk/Zk 阅读全文

posted @ 2019-12-02 14:30 大数据从业者FelixZh 阅读(751) 评论(0) 推荐(0)

2019年11月26日

Kafka分区分配策略-RangeAssignor、RoundRobinAssignor、StickyAssignor

摘要：引言按照Kafka默认的消费逻辑设定，一个分区只能被同一个消费组（ConsumerGroup）内的一个消费者消费。假设目前某消费组内只有一个消费者C0，订阅了一个topic，这个topic包含7个分区，也就是说这个消费者C0订阅了7个分区，参考下图（1）。此时消费组内又加入了一个新的消费者C1，按阅读全文

posted @ 2019-11-26 15:13 大数据从业者FelixZh 阅读(4239) 评论(0) 推荐(0)

2019年11月25日

kafka原理详解之各种offset和checkpoint

摘要：每一个分区都是一个顺序的、不可变的消息队列，并且可以持续的添加。分区中的消息都被分配了一个序列号，称之为偏移量(offset),在每个分区中此偏移量都是唯一的。一个分区在文件系统里存储为一个文件夹。文件夹里包含日志文件和索引文件。其文件名是其包含的offset的最小的条目的offset。每个文件是阅读全文

posted @ 2019-11-25 11:06 大数据从业者FelixZh 阅读(6583) 评论(0) 推荐(0)

2019年11月20日

ScheduledThreadPoolExecutor使用指南

摘要： ScheduledThreadPoolExecutor是Timer的多线程实现版本，JDK官方推荐使用。ScheduledThreadPoolExecutor用于替代Timer。是接口ScheduledExecutorService的子类，主要方法说明如下：示例代码： java.util.Time 阅读全文

posted @ 2019-11-20 17:16 大数据从业者FelixZh 阅读(2264) 评论(0) 推荐(0)

2019年11月19日

CyclicBarrier

摘要： 1. CyclicBarrier 是什么？从字面上的意思可以知道，这个类的中文意思是“循环栅栏”。大概的意思就是一个可循环利用的屏障。它的作用就是会让所有线程都等待完成后才会继续下一步行动。举个例子，就像生活中我们会约朋友们到某个餐厅一起吃饭，有些朋友可能会早到，有些朋友可能会晚到，但是这个餐阅读全文

posted @ 2019-11-19 15:34 大数据从业者FelixZh 阅读(378) 评论(0) 推荐(0)

countDownLatch

摘要： 1.背景： countDownLatch是在java1.5被引入，跟它一起被引入的工具类还有CyclicBarrier、Semaphore、concurrentHashMap和BlockingQueue。存在于java.util.cucurrent包下。 2.概念 countDownLatch这个阅读全文

posted @ 2019-11-19 15:20 大数据从业者FelixZh 阅读(353) 评论(0) 推荐(0)

AtomicBoolean使用

摘要： AtomicBoolean是java.util.concurrent.atomic的原子变量的类；可以看到下面还有很多类似的Atomic这样的类，如下图所示这样的类具有原子性，在多线程的环境下使用是线程安全的；举个例子，在多线程环境中，我们通过判断一个boolan变量的值，然后修改该变量的值，之后阅读全文

posted @ 2019-11-19 10:34 大数据从业者FelixZh 阅读(1248) 评论(0) 推荐(0)

2019年11月18日

kafka源码导入idea/eclipse

摘要：先进入源码工程：执行gradle idea或者gradle eclipse 之后再导入idea/eclipse 阅读全文

posted @ 2019-11-18 10:11 大数据从业者FelixZh 阅读(576) 评论(0) 推荐(0)

2019年11月15日

Reactor 典型的 NIO 编程模型

摘要： Doug Lea 在 Scalable IO in Java 的 PPT 中描述了 Reactor 编程模型的思想，大部分 NIO 框架和一些中间件的 NIO 编程都与它一样或是它的变体。本文结合 PPT 按照自己的理解整理而来，最终编写了一个简单的 NIO 回显服务。 Reactor 之所以高效是阅读全文

posted @ 2019-11-15 15:23 大数据从业者FelixZh 阅读(367) 评论(0) 推荐(1)

Reactor的NIO线程模型

摘要： 1.Reactor单线程模型传统的javaNIO通信的线程模型。该线程模型仅有一个I/O线程处理所有的I/O操作，如下图：单线程模型的Reactor 所有的客户端都连接到一个I/O线程负责的Acceptor上，连接成功后，由Reactor里的Dispatch将接收的ByteBuffer分发到指定阅读全文

posted @ 2019-11-15 15:20 大数据从业者FelixZh 阅读(421) 评论(0) 推荐(0)

kafka数据迁移实践

摘要：本文重点介绍kafka的两类常见数据迁移方式： 1、broker内部不同数据盘之间的分区数据迁移； 2、不同broker之间的分区数据迁移。一、broker 内部不同数据盘之间进行分区数据迁移 1.1 背景介绍 kafka broker内部的topic分区数据存储分布不均匀，导致部分磁盘100%耗阅读全文

posted @ 2019-11-15 14:10 大数据从业者FelixZh 阅读(1320) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告