大数据从业者FelixZh

2019年2月27日

摘要：官方文档 http://ranger.apache.org/quick_start_guide.html Quick Start Guide Build Process 1. Check out the code from GIT repository git clone https://gitbo 阅读全文

posted @ 2019-02-27 14:20 大数据从业者FelixZh 阅读(1607) 评论(0) 推荐(0)

2019年2月23日

Flink打包生成安装包缺少jar包

摘要：官方默认打包生成的安装包的flink-release-1.7.0\flink-dist\target\flink-1.7.0-bin\flink-1.7.0\lib下缺少jar flink-dist项目修改两个配置文件，添加需要打入到安装包的jar包 flink-release-1.7.0\flin 阅读全文

posted @ 2019-02-23 17:23 大数据从业者FelixZh 阅读(3745) 评论(0) 推荐(0)

2019年2月22日

maven编译开源项目报enforce错解决

摘要：刚下载一个开源项目源码，用maven编译发现报错：根据报错提示信息得出是enforce插件检测规则失败，并且这里提供了一个官方解决连接，进入看看MojoExecutionException解释：说明这个不是maven本身报错，而是它的插件报错了，并且告诉我们要去看一下插件的文档，提供了maven 阅读全文

posted @ 2019-02-22 14:36 大数据从业者FelixZh 阅读(5608) 评论(0) 推荐(0)

2019年2月21日

CDH集成Kafka,两种方式：离线、在线

摘要： 1.离线先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录，如下图：然后直接添加组件即可 2.在线配置相应的kafka地址 http://archive.cloudera.com/kafka/parcels/lat 阅读全文

posted @ 2019-02-21 17:59 大数据从业者FelixZh 阅读(1595) 评论(0) 推荐(1)

Kafka Frequently Asked Questions

摘要： This is intended to be an easy to understand FAQ on the topic of Kafka. One part is for beginners, one for advanced users and use cases. We hope you f 阅读全文

posted @ 2019-02-21 16:15 大数据从业者FelixZh 阅读(393) 评论(0) 推荐(0)

Migrating Brokers in a Cluster

摘要： Brokers can be moved to a new host in a Kafka cluster. This might be needed in the case of catastrophic hardware failure. Make sure the following are 阅读全文

posted @ 2019-02-21 14:31 大数据从业者FelixZh 阅读(245) 评论(0) 推荐(0)

2019年2月15日

kafka监控项目大全

摘要： https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文

posted @ 2019-02-15 16:20 大数据从业者FelixZh 阅读(861) 评论(0) 推荐(1)

转自阿里云邪-如何从小白成长为 Apache Committer?

摘要： http://wuchong.me/blog/2019/02/12/how-to-become-apache-committer/ 过去三年，我一直在为 Apache Flink 开源项目贡献，也在两年前成为了 Flink Committer。我在 Flink 社区成长的过程中受到过社区大神的很多指阅读全文

posted @ 2019-02-15 14:05 大数据从业者FelixZh 阅读(3737) 评论(0) 推荐(0)

2019年2月14日

Kafka监控系统Kafka Eagle：支持kerberos认证

摘要：在线文档：https://ke.smartloli.org/ 作者博客：https://www.cnblogs.com/smartloli/p/9371904.html 源码地址：https://github.com/smartloli/kafka-eagle 源码编译：直接提供的脚本./build 阅读全文

posted @ 2019-02-14 17:16 大数据从业者FelixZh 阅读(1523) 评论(0) 推荐(0)

2019年2月1日

简述同步IO、异步IO、阻塞IO、非阻塞IO之间的联系与区别

摘要： POSIX 同步IO、异步IO、阻塞IO、非阻塞IO，这几个词常见于各种各样的与网络相关的文章之中，往往不同上下文中它们的意思是不一样的，以致于我在很长一段时间对此感到困惑，所以想写一篇文章整理一下。按POSIX的描述似乎把同步和阻塞划等号，异步和非阻塞划等号，但是为什么有的人说同步IO不等于阻塞阅读全文

posted @ 2019-02-01 15:12 大数据从业者FelixZh 阅读(31555) 评论(6) 推荐(11)

2019年1月31日

Flink应用案例：How Trackunit leverages Flink to process real-time data from industrial IoT devices

摘要： January 22, 2019 Use Cases, Apache Flink January 22, 2019 Use Cases, Apache Flink Lasse Nedergaard Recently there has been significant discussion abou 阅读全文

posted @ 2019-01-31 15:41 大数据从业者FelixZh 阅读(608) 评论(0) 推荐(0)

腾讯大数据平台Oceanus: A one-stop platform for real time stream processing powered by Apache Flink

摘要： January 25, 2019 Use Cases, Apache Flink January 25, 2019 Use Cases, Apache Flink The Big Data Team at Tencent In recent years, the increasing need fo 阅读全文

posted @ 2019-01-31 15:21 大数据从业者FelixZh 阅读(633) 评论(0) 推荐(0)

Blink: How Alibaba Uses Apache Flink

摘要： This is a guest post from Xiaowei Jiang, Senior Director of Alibaba’s search infrastructure team. The post is adapted from Alibaba’s presentation at F 阅读全文

posted @ 2019-01-31 14:13 大数据从业者FelixZh 阅读(805) 评论(0) 推荐(0)

阿里巴巴开源的Asynchronous I/O Design and Implementation

摘要： Motivation I/O access, for the most case, is a time-consuming process, making the TPS for single operator much lower than in-memory computing, particu 阅读全文

posted @ 2019-01-31 10:50 大数据从业者FelixZh 阅读(779) 评论(0) 推荐(0)

2019年1月28日

maven 出现错误 -source 1.5 中不支持 diamond 运算符

摘要： mvn clean package -DskipTests 出现如下错误： -source 1.5 中不支持 diamond 运算符 [ERROR] (请使用 -source 7 或更高版本以启用 diamond 运算符) 解决方法1：pom.xml文件中添加解决方法2：maven 的/conf/ 阅读全文

posted @ 2019-01-28 14:14 大数据从业者FelixZh 阅读(14608) 评论(0) 推荐(2)

2019年1月24日

Kafka设计解析（六）- Kafka高性能架构之道

摘要：本文从宏观架构层面和微观实现层面分析了Kafka如何实现高性能。包含Kafka如何利用Partition实现并行处理和提供水平扩展能力，如何通过ISR实现可用性和数据一致性的动态平衡，如何使用NIO和Linux的sendfile实现零拷贝以及如何通过顺序读写和数据压缩实现磁盘的高效利用。本文从宏观阅读全文

posted @ 2019-01-24 16:51 大数据从业者FelixZh 阅读(490) 评论(0) 推荐(0)

Kafka设计解析（七）- Kafka Stream

摘要：本文介绍了Kafka Stream的背景，如Kafka Stream是什么，什么是流式计算，以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构，并行模型，状态存储，以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中阅读全文

posted @ 2019-01-24 16:35 大数据从业者FelixZh 阅读(834) 评论(0) 推荐(0)

2019年1月23日

Kafka Ecosystem（Kafka生态）

摘要： http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾由 Jay Kreps创建, 最终由 Ray Chiang修改于阅读全文

posted @ 2019-01-23 10:07 大数据从业者FelixZh 阅读(1248) 评论(0) 推荐(1)

2019年1月21日

flink如何动态支持依赖jar包提交

摘要：通常我们在编写一个flink的作业的时候，肯定会有依赖的jar包。flink官方希望你将所有的依赖和业务逻辑打成一个fat jar，这样方便提交，因为flink认为你应该对自己的业务逻辑做好单元测试，而不应该把这部分测试工作频繁提交到集群去做。但事实是我们往往不愿意打一个fat jar，我们希望将业阅读全文

posted @ 2019-01-21 17:36 大数据从业者FelixZh 阅读(10479) 评论(0) 推荐(0)

2019年1月17日

Hbase技术笔记

摘要：一、Hbase介绍二、Hbase的Region介绍三、Hbase的写逻辑介绍四、Hbase的故障恢复五、Hbase的拆分和合并如下ppt所示：下面就来针对各个部分的内容来进行详细的介绍：一、Hbase介绍 1、Hbase简介 Hbase是Hadoop Database的简称，Hbas 阅读全文

posted @ 2019-01-17 14:50 大数据从业者FelixZh 阅读(815) 评论(0) 推荐(0)

2019年1月16日

windows环境：idea或者eclipse指定用户名操作hadoop集群

摘要：方法在系统的环境变量或java JVM变量添加HADOOP_USER_NAME（具体值视情况而定）。比如：idea里面可以如下添加HADOOP_USER_NAME=hdfs 原理：直接看源码 /hadoop-3.0.3-src/hadoop-common-project/hadoop-commo 阅读全文

posted @ 2019-01-16 14:11 大数据从业者FelixZh 阅读(2851) 评论(0) 推荐(0)

2019年1月15日

HBase源码实战：BufferedMutator

摘要： /** * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard... 阅读全文

posted @ 2019-01-15 19:54 大数据从业者FelixZh 阅读(1739) 评论(0) 推荐(0)

HBase工具：如何查看HBase的HFile

摘要：命令使用案例：阅读全文

posted @ 2019-01-15 19:30 大数据从业者FelixZh 阅读(1920) 评论(0) 推荐(0)

HBase源码实战：CreateRandomStoreFile

摘要： /* * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regardi... 阅读全文

posted @ 2019-01-15 19:22 大数据从业者FelixZh 阅读(323) 评论(0) 推荐(0)

HBase源码实战：ImportTsv

摘要： /** * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard... 阅读全文

posted @ 2019-01-15 19:20 大数据从业者FelixZh 阅读(914) 评论(0) 推荐(0)

2019年1月14日

No FileSystem for scheme: hdfs问题

摘要：通过FileSystem.get(conf)初始化的时候，要通过静态加载来实现，其加载类的方法代码如下： onf.getClass需要读取hadoop-common-x.jar下面的core-default.xml，但是这个xml里面没有fs.hdfs.impl的配置信息，所以需要将这个类给配置上去阅读全文

posted @ 2019-01-14 17:25 大数据从业者FelixZh 阅读(4147) 评论(0) 推荐(0)

2019年1月12日

HBase案例：HBase 在人工智能场景的使用

摘要：近几年来，人工智能逐渐火热起来，特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据，处理完的数据一般都需要存储起来，这些数据的特点主要有如下几点：大：数据量越大，对我们后面建模越会有好处；稀疏：每行数据可能阅读全文

posted @ 2019-01-12 19:25 大数据从业者FelixZh 阅读(1117) 评论(0) 推荐(0)

为什么不建议在 HBase 中使用过多的列族

摘要：我们知道，一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述： A typical schema has between 1 and 3 column families per table. HBase tables should not be 阅读全文

posted @ 2019-01-12 19:08 大数据从业者FelixZh 阅读(2557) 评论(0) 推荐(0)

2019年1月11日

HBase Rowkey 设计指南

摘要：为什么Rowkey这么重要 RowKey 到底是什么我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么？RowKey 的特点如下：类似于 MySQL、Oracle中的主键，用于标示唯一的行阅读全文

posted @ 2019-01-11 17:56 大数据从业者FelixZh 阅读(991) 评论(0) 推荐(0)

HBase 是列式存储数据库吗

摘要：在介绍 HBase 是不是列式存储数据库之前，我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面，对行式数据库和列式数据库的定义为：列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理（OLAP）和即时查询。相对应的是行式数据库，数据以行相关的阅读全文

posted @ 2019-01-11 17:32 大数据从业者FelixZh 阅读(4710) 评论(2) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告