摘要:
为了能够方便的查看及管理Kafka集群,yahoo提供了一个基于Web的管理工具(Kafka-Manager)。 这个工具可以方便的查看集群中Kafka的Topic的状态(分区、副本及消息量等),支持管理多个集群、重新分配Partition及创建Topic等功能。 jdk、sbt自行安装吧 sbt源
阅读全文
posted @ 2019-01-11 15:20
大数据从业者FelixZh
阅读(1562)
推荐(0)
摘要:
官方下載地址:https://www.scala-sbt.org/download.html?spm=a2c4e.11153940.blogcont238365.9.42d147e0iF8dhv 解压即安装,配置环境变量。 在conf文件夹下新建repo.properties(默认源真的无法忍受)
阅读全文
posted @ 2019-01-11 14:56
大数据从业者FelixZh
阅读(625)
推荐(0)
摘要:
项目背景 本项目为车联网监控系统,系统由车载硬件设备、云服务端构成。车载硬件设备会定时采集车辆的各种状态信息,并通过移动网络上传到服务器端。服务器端接收到硬件设备发送的数据首先需要将数据进行解析,校验,随后会将该消息转发到国家汽车监测平台和地方汽车监测平台,最后将解析后的明文数据和原始报文数据存储到
阅读全文
posted @ 2019-01-10 19:58
大数据从业者FelixZh
阅读(3113)
推荐(1)
摘要:
用户模型简介 知乎 AI 用户模型服务于知乎两亿多用户,主要为首页、推荐、广告、知识服务、想法、关注页等业务场景提供数据和服务, 例如首页个性化 Feed 的召回和排序、相关回答等用到的用户长期兴趣特征,问题路由、回答排序中用到的 TPR「作者创作权威度」,广告定向投放用到的基础属性等。 主要功能
阅读全文
posted @ 2019-01-10 19:22
大数据从业者FelixZh
阅读(1094)
推荐(0)
摘要:
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。 但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。 本文将针对这个问题介绍如何通过Hbase的Bul
阅读全文
posted @ 2019-01-10 19:07
大数据从业者FelixZh
阅读(1084)
推荐(0)
摘要:
一、spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下: 1. put逐条插入1.
阅读全文
posted @ 2019-01-10 17:17
大数据从业者FelixZh
阅读(4306)
推荐(0)
摘要:
1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H
阅读全文
posted @ 2019-01-10 16:54
大数据从业者FelixZh
阅读(2712)
推荐(0)
摘要:
简介 在项目开发过程中,我们经常需要一些benchmark工具来对系统进行压测,以获得系统的性能参数,极限吞吐等等指标。 而在HBase中,就自带了一个benchmark工具—PerformanceEvaluation,可以非常方便地对HBase的Put、Get、Scan等API进行性能测试,并提供
阅读全文
posted @ 2019-01-09 19:13
大数据从业者FelixZh
阅读(3197)
推荐(0)
摘要:
旧 的 HBase 接口逻辑与传统 JDBC 方式很不相同,新的接口与传统 JDBC 的逻辑更加相像,具有更加清晰的 Connection 管理方式。 同时,在旧的接口中,客户端何时将 Put 写到服务端也需要设置,一个 Put 马上写到服务端,还是攒到一批写到服务端,新用户往往对此不太清楚。 在新
阅读全文
posted @ 2019-01-09 11:35
大数据从业者FelixZh
阅读(2434)
推荐(0)
摘要:
01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation of Piotr Nowojski’s presentation from Flink Forward Ber
阅读全文
posted @ 2019-01-08 09:25
大数据从业者FelixZh
阅读(515)
推荐(0)
摘要:
18 Nov 2014 by Fabian Hüske (@fhueske) Apache Hadoop is an industry standard for scalable analytical data processing. Many data analysis applications
阅读全文
posted @ 2019-01-07 20:29
大数据从业者FelixZh
阅读(708)
推荐(0)
摘要:
在HBase中,数据是存储在有行有列的表格中。这是与关系型数据库重复的术语,并不是有用的类比。相反,HBase可以被认为是一个多维度的映射。 HBase数据模型术语 Table(表格) 一个HBase表格由多行组成。 Row(行) HBase中的行里面包含一个key和一个或者多个包含值的列。行按照行
阅读全文
posted @ 2019-01-07 14:16
大数据从业者FelixZh
阅读(810)
推荐(0)
摘要:
感谢英文原文作者:https://data-artisans.com/blog/a-practical-guide-to-broadcast-state-in-apache-flink 不过,原文最近好像不能访问了。应该是https://www.da-platform.com/网站移除了blog板块
阅读全文
posted @ 2019-01-03 19:42
大数据从业者FelixZh
阅读(2574)
推荐(0)
摘要:
https://blog.csdn.net/qq_31125793/article/details/51241943 背景 对现有的数据库连接池做调研对比,综合性能,可靠性,稳定性,扩展性等因素选出推荐出最优的数据库连接池 。 NOTE: 本文所有测试均是MySQL库 测试结论 1:性能方面 hik
阅读全文
posted @ 2019-01-03 10:26
大数据从业者FelixZh
阅读(8927)
推荐(1)
摘要:
Flink流处理的时间窗口 对于流处理系统来说,流入的消息是无限的,所以对于聚合或是连接等操作,流处理系统需要对流入的消息进行分段,然后基于每一段数据进行聚合或是连接等操作。 消息的分段即称为窗口,流处理系统支持的窗口有很多类型,最常见的就是时间窗口,基于时间间隔对消息进行分段处理。本节主要介绍Fl
阅读全文
posted @ 2019-01-02 15:52
大数据从业者FelixZh
阅读(5004)
推荐(0)
摘要:
本文介绍了Kafka实现事务性的几个阶段——正好一次语义与原子操作。之后详细分析了Kafka事务机制的实现原理,并介绍了Kafka如何处理事务相关的异常情况,如Transaction Coordinator宕机。最后介绍了Kafka的事务机制与PostgreSQL的MVCC以及Zookeeper的原
阅读全文
posted @ 2018-12-29 15:56
大数据从业者FelixZh
阅读(752)
推荐(0)
摘要:
1. 幂等性设计1.1 引入目的生产者重复生产消息。生产者进行retry会产生重试时,会重复产生消息。有了幂等性之后,在进行retry重试时,只会生成一个消息。 1.2 幂等性实现1.2.1 PID 和 Sequence Number为了实现Producer的幂等性,Kafka引入了Producer
阅读全文
posted @ 2018-12-27 14:23
大数据从业者FelixZh
阅读(6183)
推荐(4)
摘要:
多人开发时,会出现明明在gitignore中忽略了.idea文件夹,但是提交时仍旧会出现.idea内文件变动的情况 原因.idea已经被git跟踪,之后再加入.gitignore后是没有作用的 解决办法清除.idea的git缓存 参考: https://stackoverflow.com/quest
阅读全文
posted @ 2018-12-27 11:36
大数据从业者FelixZh
阅读(2990)
推荐(0)
摘要:
大致就是 工程里分了 java 代码 和 scala 代码。 然后在java代码中 引用了 scala 的代码。 运行不报错。 但是打包就是一直报错。 如果直接把java代码放在 scala 里面,编译时会直接忽略这个类,不参与编译。 在pom 里加了一个插件,解决了报错问题。 <plugin> <
阅读全文
posted @ 2018-12-27 11:10
大数据从业者FelixZh
阅读(4303)
推荐(0)
摘要:
Starting sshd: /var/empty/sshd must be owned by root and not group or world-writable. [FAILED] 这个是权限的问题可采取以下两步解决 就可以解决上述的问题
阅读全文
posted @ 2018-12-26 16:50
大数据从业者FelixZh
阅读(992)
推荐(0)
摘要:
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个
阅读全文
posted @ 2018-12-21 19:19
大数据从业者FelixZh
阅读(789)
推荐(0)
摘要:
On your Postgres server, you will need to update your pg_hba.conf file to allow access for the ambari user on the ambari database coming from 127.0.0.
阅读全文
posted @ 2018-12-21 09:17
大数据从业者FelixZh
阅读(3367)
推荐(0)
摘要:
在MySQL中,可以使用LOAD DATA INFILE和LOAD DATA LOCAL INFILE两种方式导入文本文件中的数据到数据库表中,速度非常快。其中LOAD DATA INFILE使用的文件要位于MySQL所在服务器上,LOAD DATA LOCAL INFILE则使用的是客户端的文件。
阅读全文
posted @ 2018-12-20 16:20
大数据从业者FelixZh
阅读(3708)
推荐(0)
摘要:
文章简介 ThreadLocal应该都比较熟悉,这篇文章会基于ThreadLocal的应用以及实现原理做一个全面的分析 内容导航 什么是ThreadLocal ThreadLocal的使用 分析ThreadLocal的实现原理 ThreadLocal的应用场景及问题 什么是ThreadLocal T
阅读全文
posted @ 2018-12-14 08:42
大数据从业者FelixZh
阅读(585)
推荐(0)
摘要:
概念理解 gradlew就是对gradle的包装和配置,gradlew是gradle Wrapper,Wrapper的意思就是包装。 因为不是每个人的电脑中都安装了gradle,也不一定安装的版本是要编译项目需要的版本,那么gradlew里面就配置要需要的gradle版本。 然后用户只需要运行gra
阅读全文
posted @ 2018-12-01 17:09
大数据从业者FelixZh
阅读(4965)
推荐(1)
摘要:
January 23, 2018 - Apache Flink, Flink Features Stefan Richter and Chris Ward Apache Flink was purpose-built for stateful stream processing. Let’s qui
阅读全文
posted @ 2018-12-01 15:01
大数据从业者FelixZh
阅读(375)
推荐(0)
摘要:
January 11, 2018 - Apache Flink Robert Metzger and Chris Ward A favorite session from Flink Forward Berlin 2017 was Robert Metzger’s “Keep It Going: H
阅读全文
posted @ 2018-11-30 18:02
大数据从业者FelixZh
阅读(453)
推荐(0)
摘要:
Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8
阅读全文
posted @ 2018-11-27 14:21
大数据从业者FelixZh
阅读(1026)
推荐(0)
摘要:
1、生产者1.1、准备jaas.conf并添加到环境变量(使用以下方式的其中一种)1.1.1、使用Kinit方式前提是手动kinit 配置内容为: 1.1.2、使用指定keytab和票据的方式 准备好你的keytab文件 配置内容为: * 添加到环境变量: 2、执行命令 或者使用配置文件的方式 pr
阅读全文
posted @ 2018-11-22 10:34
大数据从业者FelixZh
阅读(3221)
推荐(0)
摘要:
could accomplish with Flink back at Twitter. I had an application in mind that I knew I could make more efficient by a huge factor if I could use the
阅读全文
posted @ 2018-11-10 15:59
大数据从业者FelixZh
阅读(801)
推荐(0)