hadoop - 随笔分类(第2页) - 哥不是小萝莉

HBase数据迁移到Kafka实战

摘要：1.概述在实际的应用场景中，数据存储在HBase集群中，但是由于一些特殊的原因，需要将数据从HBase迁移到Kafka。正常情况下，一般都是源数据到Kafka，再有消费者处理数据，将数据写入HBase。但是，如果逆向处理，如何将HBase的数据迁移到Kafka呢？今天笔者就给大家来分享一下具体的实阅读全文

posted @ 2019-09-15 12:04 哥不是小萝莉阅读(2930) 评论(0) 推荐(1)

Kafka Eagle V1.3.4更新预览

摘要：1.概述 Kafka Eagle是一款开源的Kafka集群监控系统，源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本，域名已经统一更新为http://www.kafka-eagle.org/，之前的下载地址和官网使用手册地址均已替换，例如http://download.s 阅读全文

posted @ 2019-07-14 21:13 哥不是小萝莉阅读(2997) 评论(11) 推荐(1)

万亿数据下Hadoop的核心竞争力

摘要：1.前言在大数据时代，Hadoop有着得天独厚的优势。然而，每个企业的技术储备和需求特点不同，他们希望从海量的客户数据中挖掘真正的商业价值，像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么，今天我们就来聊一聊，万亿数据下Hadoop的核心竞争力。 2. 阅读全文

posted @ 2019-06-17 09:19 哥不是小萝莉阅读(1677) 评论(0) 推荐(4)

基于Kafka的实时计算引擎如何选择？Flink or Spark？

摘要：1.前言目前实时计算的业务场景越来越多，实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？Flink or Spark？ 2.为何需要实时计算？根据IBM的统计报告显示，过去两阅读全文

posted @ 2019-06-03 09:13 哥不是小萝莉阅读(7802) 评论(0) 推荐(2)

Kafka应用实践与生态集成

摘要：1.前言 Apache Kafka发展至今，已经是一个很成熟的消息队列组件了，也是大数据生态圈中不可或缺的一员。Apache Kafka社区非常的活跃，通过社区成员不断的贡献代码和迭代项目，使得Apache Kafka功能越发丰富、性能越发稳定，截止本篇博客Apache Kafka发布了V2.2.0 阅读全文

posted @ 2019-05-26 23:48 哥不是小萝莉阅读(2634) 评论(1) 推荐(2)

Hadoop3.2.0使用详解

摘要：1.概述 Hadoop3已经发布很久了，迭代集成的一些新特性也是很有用的。截止本篇博客书写为止，Hadoop发布了3.2.0。接下来，笔者就为大家分享一下在使用Hadoop3中遇到到一些问题，以及解决方法。 2.内容 2.1 基础软件包在使用这些组件时，我们需要做一些准备工作，内容如下： Hado 阅读全文

posted @ 2019-04-23 00:19 哥不是小萝莉阅读(14228) 评论(0) 推荐(2)

Flink生成Parquet格式文件实战

摘要：1.概述在流数据应用场景中，往往会通过Flink消费Kafka中的数据，然后将这些数据进行结构化到HDFS上，再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后，将消费后的数据结构化到Hive数据仓库中。 2.内容 Hive能够识别很多类型的文件，阅读全文

posted @ 2019-02-24 16:47 哥不是小萝莉阅读(12973) 评论(3) 推荐(2)

HBase2实战：HBase Flink和Kafka整合

摘要：1.概述 Apache官方发布HBase2已经有一段时间了，HBase2中包含了许多个Features，从官方JIRA来看，大约有4500+个ISSUES（查看地址），从版本上来看是一个非常大的版本了。本篇博客将为大家介绍HBase2的新特性，以及如何在实战中与Flink、Kafka等组件进行整合。阅读全文

posted @ 2019-01-09 18:08 哥不是小萝莉阅读(10305) 评论(0) 推荐(1)

Kafka性能测试实例

摘要：1.概述在分布式实时数据流场景下，随着数据量的增长，对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试，针对具体的业务和数据量，来调优Kafka集群。 2.内容 2.1 测试环境本次测试的环境信息由三台物理机组成，具体信息如下所示： 2.2 测试工具 Kaf 阅读全文

posted @ 2018-12-09 22:37 哥不是小萝莉阅读(23501) 评论(2) 推荐(4)

使用Flume消费Kafka数据到HDFS

摘要：1.概述对于数据的转发，Kafka是一个不错的选择。Kafka能够装载数据到消息队列，然后等待其他业务场景去消费这些数据，Kafka的应用接口API非常的丰富，支持各种存储介质，例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic，也是有组件可以去集成消费阅读全文

posted @ 2018-11-19 17:12 哥不是小萝莉阅读(21218) 评论(0) 推荐(1)

HBase Region合并分析

摘要：1.概述 HBase中表的基本单位是Region，日常在调用HBase API操作一个表时，交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region，今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容在分析合并Region之前，我们先来了解一下Region 阅读全文

posted @ 2018-09-15 00:59 哥不是小萝莉阅读(12094) 评论(0) 推荐(3)

HBase BulkLoad批量写入数据实战

摘要：1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、H 阅读全文

posted @ 2018-08-19 17:29 哥不是小萝莉阅读(37697) 评论(0) 推荐(4)

HBase查询优化之Short-Circuit Local Reads

摘要：1.概述在《HBase查询优化》一文中，介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式，存储在HDFS上。那么，HDFS层面也有它自己的优化点，即：Short-Circuit Local Reads。本篇博客笔者将从HDFS层面来进行优化，从而间接的提升HBase 阅读全文

posted @ 2018-08-12 13:45 哥不是小萝莉阅读(4531) 评论(0) 推荐(2)

HBase查询优化

摘要：1.概述 HBase是一个实时的非关系型数据库，用来存储海量数据。但是，在实际使用场景中，在使用HBase API查询HBase中的数据时，有时会发现数据查询会很慢。本篇博客将从客户端优化和服务端优化两个方面来介绍，如何提高查询HBase的效率。 2.内容这里，我们先给大家介绍如何从客户端优化查询阅读全文

posted @ 2018-08-05 13:54 哥不是小萝莉阅读(22988) 评论(2) 推荐(3)

Kafka监控系统Kafka Eagle剖析

摘要：1.概述最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题，这里笔者特意整理了这些问题。并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑，同时也给出一些定位分析Kafka Eagle异常的时的解决办法。 2.内容 2.1 背景在使用Ka 阅读全文

posted @ 2018-07-27 01:02 哥不是小萝莉阅读(39868) 评论(4) 推荐(7)

剖析HBase负载均衡和性能指标

摘要：1.概述在分布式系统中，负载均衡是一个非常重要的功能，在HBase中通过Region的数量来实现负载均衡，HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容在HBase系阅读全文

posted @ 2018-07-01 04:10 哥不是小萝莉阅读(6569) 评论(2) 推荐(2)

Hadoop大数据挖掘从入门到进阶实战

摘要：1.概述大数据时代，数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本，而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮，笔者愿意分享自己多年的开发经验，带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文

posted @ 2018-06-22 20:52 哥不是小萝莉阅读(4162) 评论(2) 推荐(2)

实战Kafka ACL机制

摘要：1.概述在Kafka0.9版本之前，Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址，例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后，连接到Kafk 阅读全文

posted @ 2018-06-17 03:08 哥不是小萝莉阅读(19171) 评论(3) 推荐(3)

Hadoop 3.x 新特性剖析系列2

摘要：1.概述接着上一篇博客的内容，继续介绍Hadoop3的其他新特性。其内容包含：优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN 阅读全文

posted @ 2018-05-12 12:55 哥不是小萝莉阅读(5034) 评论(2) 推荐(3)

Hadoop 3.x 新特性剖析系列1

摘要：1.概述目前从Hadoop官网的Wiki来看，稳定版本已经发行到Hadoop2.9.0，最新版本为Hadoop3.1.0，查阅JIRA，社区已经着手迭代Hadoop3.2.0。那么，今天笔者就带着大家来剖析一下Hadoop3，看看它给我们带来了哪些新特性。 2. 内容从功能上来说，Hadoop3 阅读全文

posted @ 2018-04-14 03:53 哥不是小萝莉阅读(9644) 评论(0) 推荐(1)

哥不是小萝莉

随笔分类 - hadoop

公告