大数据从业者FelixZh

2019年1月11日

摘要：为了能够方便的查看及管理Kafka集群，yahoo提供了一个基于Web的管理工具（Kafka-Manager）。这个工具可以方便的查看集群中Kafka的Topic的状态（分区、副本及消息量等），支持管理多个集群、重新分配Partition及创建Topic等功能。 jdk、sbt自行安装吧 sbt源阅读全文

posted @ 2019-01-11 15:20 大数据从业者FelixZh 阅读(1565) 评论(0) 推荐(0)

sbt安裝與配置

摘要：官方下載地址：https://www.scala-sbt.org/download.html?spm=a2c4e.11153940.blogcont238365.9.42d147e0iF8dhv 解压即安装，配置环境变量。在conf文件夹下新建repo.properties（默认源真的无法忍受）阅读全文

posted @ 2019-01-11 14:56 大数据从业者FelixZh 阅读(633) 评论(0) 推荐(0)

2019年1月10日

HBase实践案例：车联网监控系统

摘要：项目背景本项目为车联网监控系统，系统由车载硬件设备、云服务端构成。车载硬件设备会定时采集车辆的各种状态信息，并通过移动网络上传到服务器端。服务器端接收到硬件设备发送的数据首先需要将数据进行解析，校验，随后会将该消息转发到国家汽车监测平台和地方汽车监测平台，最后将解析后的明文数据和原始报文数据存储到阅读全文

posted @ 2019-01-10 19:58 大数据从业者FelixZh 阅读(3129) 评论(0) 推荐(1)

HBase实践案例：知乎 AI 用户模型服务性能优化实践

摘要：用户模型简介知乎 AI 用户模型服务于知乎两亿多用户，主要为首页、推荐、广告、知识服务、想法、关注页等业务场景提供数据和服务，例如首页个性化 Feed 的召回和排序、相关回答等用到的用户长期兴趣特征，问题路由、回答排序中用到的 TPR「作者创作权威度」，广告定向投放用到的基础属性等。主要功能阅读全文

posted @ 2019-01-10 19:22 大数据从业者FelixZh 阅读(1101) 评论(0) 推荐(0)

通过BulkLoad快速将海量数据导入到Hbase

摘要：在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的Bul 阅读全文

posted @ 2019-01-10 19:07 大数据从业者FelixZh 阅读(1094) 评论(0) 推荐(0)

spark读写hbase性能对比

摘要：一、spark写入hbase hbase client以put方式封装数据，并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此，将同样的数据插入其中对比性能。依赖如下： 1. put逐条插入1. 阅读全文

posted @ 2019-01-10 17:17 大数据从业者FelixZh 阅读(4323) 评论(0) 推荐(0)

HBase BulkLoad批量写入数据实战

摘要： 1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、H 阅读全文

posted @ 2019-01-10 16:54 大数据从业者FelixZh 阅读(2724) 评论(0) 推荐(0)

2019年1月9日

HBase2.0中的Benchmark工具 — PerformanceEvaluation

摘要：简介在项目开发过程中，我们经常需要一些benchmark工具来对系统进行压测，以获得系统的性能参数，极限吞吐等等指标。而在HBase中，就自带了一个benchmark工具—PerformanceEvaluation，可以非常方便地对HBase的Put、Get、Scan等API进行性能测试，并提供阅读全文

posted @ 2019-01-09 19:13 大数据从业者FelixZh 阅读(3217) 评论(0) 推荐(0)

HBase Client JAVA API

摘要：旧的 HBase 接口逻辑与传统 JDBC 方式很不相同，新的接口与传统 JDBC 的逻辑更加相像，具有更加清晰的 Connection 管理方式。同时，在旧的接口中，客户端何时将 Put 写到服务端也需要设置，一个 Put 马上写到服务端，还是攒到一批写到服务端，新用户往往对此不太清楚。在新阅读全文

posted @ 2019-01-09 11:35 大数据从业者FelixZh 阅读(2439) 评论(0) 推荐(0)

2019年1月8日

An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)

摘要： 01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation of Piotr Nowojski’s presentation from Flink Forward Ber 阅读全文

posted @ 2019-01-08 09:25 大数据从业者FelixZh 阅读(517) 评论(0) 推荐(0)

2019年1月7日

Hadoop Compatibility in Flink

摘要： 18 Nov 2014 by Fabian Hüske (@fhueske) Apache Hadoop is an industry standard for scalable analytical data processing. Many data analysis applications 阅读全文

posted @ 2019-01-07 20:29 大数据从业者FelixZh 阅读(709) 评论(0) 推荐(0)

HBase 数据模型

摘要：在HBase中，数据是存储在有行有列的表格中。这是与关系型数据库重复的术语，并不是有用的类比。相反，HBase可以被认为是一个多维度的映射。 HBase数据模型术语 Table（表格）一个HBase表格由多行组成。 Row（行） HBase中的行里面包含一个key和一个或者多个包含值的列。行按照行阅读全文

posted @ 2019-01-07 14:16 大数据从业者FelixZh 阅读(816) 评论(0) 推荐(0)

2019年1月3日

Apache Flink中的广播状态实用指南

摘要：感谢英文原文作者：https://data-artisans.com/blog/a-practical-guide-to-broadcast-state-in-apache-flink 不过，原文最近好像不能访问了。应该是https://www.da-platform.com/网站移除了blog板块阅读全文

posted @ 2019-01-03 19:42 大数据从业者FelixZh 阅读(2582) 评论(0) 推荐(0)

数据库连接池性能比对(hikari druid c3p0 dbcp jdbc)

摘要： https://blog.csdn.net/qq_31125793/article/details/51241943 背景对现有的数据库连接池做调研对比，综合性能，可靠性，稳定性，扩展性等因素选出推荐出最优的数据库连接池。 NOTE: 本文所有测试均是MySQL库测试结论 1：性能方面 hik 阅读全文

posted @ 2019-01-03 10:26 大数据从业者FelixZh 阅读(8948) 评论(0) 推荐(1)

2019年1月2日

Flink流处理的时间窗口

摘要： Flink流处理的时间窗口对于流处理系统来说，流入的消息是无限的，所以对于聚合或是连接等操作，流处理系统需要对流入的消息进行分段，然后基于每一段数据进行聚合或是连接等操作。消息的分段即称为窗口，流处理系统支持的窗口有很多类型，最常见的就是时间窗口，基于时间间隔对消息进行分段处理。本节主要介绍Fl 阅读全文

posted @ 2019-01-02 15:52 大数据从业者FelixZh 阅读(5016) 评论(0) 推荐(0)

2018年12月29日

Kafka设计解析（八）- Exactly Once语义与事务机制原理

摘要：本文介绍了Kafka实现事务性的几个阶段——正好一次语义与原子操作。之后详细分析了Kafka事务机制的实现原理，并介绍了Kafka如何处理事务相关的异常情况，如Transaction Coordinator宕机。最后介绍了Kafka的事务机制与PostgreSQL的MVCC以及Zookeeper的原阅读全文

posted @ 2018-12-29 15:56 大数据从业者FelixZh 阅读(755) 评论(0) 推荐(0)

2018年12月27日

kafka 幂等生产者及事务(kafka0.11之后版本新特性)

摘要： 1. 幂等性设计1.1 引入目的生产者重复生产消息。生产者进行retry会产生重试时，会重复产生消息。有了幂等性之后，在进行retry重试时，只会生成一个消息。 1.2 幂等性实现1.2.1 PID 和 Sequence Number为了实现Producer的幂等性，Kafka引入了Producer 阅读全文

posted @ 2018-12-27 14:23 大数据从业者FelixZh 阅读(6195) 评论(0) 推荐(4)

git 忽略 .idea文件

摘要：多人开发时,会出现明明在gitignore中忽略了.idea文件夹,但是提交时仍旧会出现.idea内文件变动的情况原因.idea已经被git跟踪，之后再加入.gitignore后是没有作用的解决办法清除.idea的git缓存参考： https://stackoverflow.com/quest 阅读全文

posted @ 2018-12-27 11:36 大数据从业者FelixZh 阅读(2996) 评论(0) 推荐(0)

Java Scala 混合编程导致编译失败，【找不到符号】问题解决

摘要：大致就是工程里分了 java 代码和 scala 代码。然后在java代码中引用了 scala 的代码。运行不报错。但是打包就是一直报错。如果直接把java代码放在 scala 里面，编译时会直接忽略这个类，不参与编译。在pom 里加了一个插件，解决了报错问题。 <plugin> < 阅读全文

posted @ 2018-12-27 11:10 大数据从业者FelixZh 阅读(4316) 评论(0) 推荐(0)

2018年12月26日

Starting sshd: /var/empty/sshd must be owned by root and not group or world-writable.

摘要： Starting sshd: /var/empty/sshd must be owned by root and not group or world-writable. [FAILED] 这个是权限的问题可采取以下两步解决就可以解决上述的问题阅读全文

posted @ 2018-12-26 16:50 大数据从业者FelixZh 阅读(996) 评论(0) 推荐(0)

2018年12月21日

Spark RDD持久化、广播变量和累加器

摘要： Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个阅读全文

posted @ 2018-12-21 19:19 大数据从业者FelixZh 阅读(791) 评论(0) 推荐(0)

PSQLException: FATAL: no pg_hba.conf entry for host "127.0.0.1", user "ambari", database "ambari", SSL off

摘要： On your Postgres server, you will need to update your pg_hba.conf file to allow access for the ambari user on the ambari database coming from 127.0.0. 阅读全文

posted @ 2018-12-21 09:17 大数据从业者FelixZh 阅读(3378) 评论(0) 推荐(0)

2018年12月20日

PostgreSQL：Java使用CopyManager实现客户端文件COPY导入

摘要：在MySQL中，可以使用LOAD DATA INFILE和LOAD DATA LOCAL INFILE两种方式导入文本文件中的数据到数据库表中，速度非常快。其中LOAD DATA INFILE使用的文件要位于MySQL所在服务器上，LOAD DATA LOCAL INFILE则使用的是客户端的文件。阅读全文

posted @ 2018-12-20 16:20 大数据从业者FelixZh 阅读(3723) 评论(0) 推荐(0)

2018年12月14日

ThreadLocal的使用及原理分析

摘要：文章简介 ThreadLocal应该都比较熟悉，这篇文章会基于ThreadLocal的应用以及实现原理做一个全面的分析内容导航什么是ThreadLocal ThreadLocal的使用分析ThreadLocal的实现原理 ThreadLocal的应用场景及问题什么是ThreadLocal T 阅读全文

posted @ 2018-12-14 08:42 大数据从业者FelixZh 阅读(591) 评论(0) 推荐(0)

2018年12月1日

gradlew和gradle的区别

摘要：概念理解 gradlew就是对gradle的包装和配置，gradlew是gradle Wrapper，Wrapper的意思就是包装。因为不是每个人的电脑中都安装了gradle，也不一定安装的版本是要编译项目需要的版本，那么gradlew里面就配置要需要的gradle版本。然后用户只需要运行gra 阅读全文

posted @ 2018-12-01 17:09 大数据从业者FelixZh 阅读(4987) 评论(0) 推荐(1)

Managing Large State in Apache Flink®: An Intro to Incremental Checkpointing

摘要： January 23, 2018 - Apache Flink, Flink Features Stefan Richter and Chris Ward Apache Flink was purpose-built for stateful stream processing. Let’s qui 阅读全文

posted @ 2018-12-01 15:01 大数据从业者FelixZh 阅读(381) 评论(0) 推荐(0)

2018年11月30日

How To Size Your Apache Flink® Cluster: A Back-of-the-Envelope Calculation

摘要： January 11, 2018 - Apache Flink Robert Metzger and Chris Ward A favorite session from Flink Forward Berlin 2017 was Robert Metzger’s “Keep It Going: H 阅读全文

posted @ 2018-11-30 18:02 大数据从业者FelixZh 阅读(468) 评论(0) 推荐(0)

2018年11月27日

apache kafka & CDH kafka源码编译

摘要： Apache kafka编译前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址：https://github.com/apache/kafka 编译环境准备 java maven gradle 编译失败原因：gradle版本太高，降低到4.8 阅读全文

posted @ 2018-11-27 14:21 大数据从业者FelixZh 阅读(1032) 评论(0) 推荐(0)

2018年11月22日

Kafka集成Kerberos之后如何使用生产者消费者命令

摘要： 1、生产者1.1、准备jaas.conf并添加到环境变量（使用以下方式的其中一种）1.1.1、使用Kinit方式前提是手动kinit 配置内容为： 1.1.2、使用指定keytab和票据的方式准备好你的keytab文件配置内容为： * 添加到环境变量: 2、执行命令或者使用配置文件的方式 pr 阅读全文

posted @ 2018-11-22 10:34 大数据从业者FelixZh 阅读(3228) 评论(0) 推荐(0)

2018年11月10日

Extending the Yahoo! Streaming Benchmark

摘要： could accomplish with Flink back at Twitter. I had an application in mind that I knew I could make more efficient by a huge factor if I could use the 阅读全文

posted @ 2018-11-10 15:59 大数据从业者FelixZh 阅读(806) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告