摘要: I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2020-01-09 11:31 大数据从业者FelixZh 阅读(395) 评论(0) 推荐(1) 编辑
摘要: https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文
posted @ 2019-02-15 16:20 大数据从业者FelixZh 阅读(761) 评论(0) 推荐(1) 编辑
摘要: http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾 由 Jay Kreps创建, 最终由 Ray Chiang修改于  阅读全文
posted @ 2019-01-23 10:07 大数据从业者FelixZh 阅读(1045) 评论(0) 推荐(1) 编辑
摘要: Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8 阅读全文
posted @ 2018-11-27 14:21 大数据从业者FelixZh 阅读(861) 评论(0) 推荐(0) 编辑
摘要: 国内某大数据供应商 岗位要求1、本科以上学历,计算机及相关专业毕业。2、对大数据处理有强烈兴趣,掌握至少一种主流开源技术方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验,掌握Python/Sc 阅读全文
posted @ 2018-10-27 09:16 大数据从业者FelixZh 阅读(1479) 评论(0) 推荐(0) 编辑
摘要: 本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。 采用单master,单node(可以多node),占用资源较少,方便在笔记本或学习环境快速部署,不适用于生产环境。 所需文件百度盘连接 链接:https://pan.baidu.com/s/1iQJpKZ9P 阅读全文
posted @ 2018-09-29 18:59 大数据从业者FelixZh 阅读(2231) 评论(1) 推荐(0) 编辑
摘要: 前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3115) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-06 18:25 大数据从业者FelixZh 阅读(2177) 评论(3) 推荐(0) 编辑
摘要: Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节... 阅读全文
posted @ 2015-11-27 16:01 大数据从业者FelixZh 阅读(969) 评论(0) 推荐(0) 编辑
摘要: 什么是延时监控?延时监控,简单理解监控算子到算子的延迟时间。记录算子间或者源流入到算子时间,监控系统健康以及调节。 流式计算中处理延迟是一个非常重要的监控metric flink中通过开启配置 metrics.latency.interval 来开启latency后就可以在metric中看到askM 阅读全文
posted @ 2021-10-11 10:39 大数据从业者FelixZh 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 一、背景 FLink Job端到端延迟是一个重要的指标,用来衡量FLink任务的整体性能和响应延迟(大部分流式应用,要求低延迟特性)。 通过流处理引擎竞品对比,我们发现大部分流计算引擎产品,都在告警监控页面,集成了全链路时延指标展示(直方图) 一些低延时的处理场景,例如用于登陆、用户下单规则检测,实 阅读全文
posted @ 2021-10-11 10:33 大数据从业者FelixZh 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 简介: sftp是Secure File Transfer Protocol的缩写,安全文件传送协议。可以为传输文件提供一种安全的加密方法。sftp 与 ftp有着几乎一样的语法和功能。SFTP 为 SSH的一部份,和vsftpd一点关系没有,是一种传输档案至 Blogger 伺服器的安全方式。本身 阅读全文
posted @ 2021-10-09 10:37 大数据从业者FelixZh 阅读(13) 评论(0) 推荐(0) 编辑
摘要: MirrorMaker 2.0 is used to replicate data between two or more active Kafka clusters, within or across data centers. Data replication across clusters s 阅读全文
posted @ 2021-10-08 10:58 大数据从业者FelixZh 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 环境搭建: 一 下载源码。1.源码下载: 从GitHub下载https://github.com/apache/kafka.git。 下载完之后在IDEA setting--Plugins 处安装Scala 插件,再按照提示下载scala jar包。 2.配置工程: 二 运行源码1.启动kafkaK 阅读全文
posted @ 2021-10-03 22:45 大数据从业者FelixZh 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Kafka Connect is a framework to stream data into and out of Apache Kafka®. The Confluent Platform ships with several built-in connectors that can be u 阅读全文
posted @ 2021-09-28 14:11 大数据从业者FelixZh 阅读(12) 评论(0) 推荐(0) 编辑
摘要: IPv6背景介绍 目前被广泛使用的IPv4,它的最大问题是网络地址资源有限。IPv4仅有32二进制位,满打满算也仅有不到43亿个IP地址,已经完全不能满足目前需求。IPv6有128二进制位,地址数量非常庞大。目前主流操作系统早已支持IPv6,Google、Facebook和Yahoo等网站也早已支持 阅读全文
posted @ 2021-09-25 10:42 大数据从业者FelixZh 阅读(20) 评论(0) 推荐(0) 编辑
摘要: How to identify the source of backpressure? 07 Jul 2021 Piotr Nowojski (@PiotrNowojski) What is backpressure? Why should I care about backpressure? Wh 阅读全文
posted @ 2021-09-06 19:23 大数据从业者FelixZh 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 对于很多在公司维护开源项目的工程师来说,成为 Apache 项目的 committer 应该是很多人的一个小梦想,那么怎么才能成为一位 committer,对于一些比较成熟的项目,现在想成为 committer 是有一定的难度,但也不是不可能。 How can I become an Apache 阅读全文
posted @ 2021-09-06 16:39 大数据从业者FelixZh 阅读(39) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka KIP 介绍 Apache Kafka KIP 的全称是:Kafka Improvement Proposal,由此可见是社区为了优化Kafka而编写的提案。每条提案代表着Kafka的某个功能更新或者筹划未来的更新。 Apache Kafka KIP 有一个专门的页面,罗列 阅读全文
posted @ 2021-09-01 14:07 大数据从业者FelixZh 阅读(26) 评论(0) 推荐(0) 编辑
摘要: As covered in a recent blog post, RocksDB is a state backend in Flink that allows a job to have state larger than the amount of available memory as th 阅读全文
posted @ 2021-08-31 17:12 大数据从业者FelixZh 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 案例功能说明 通过socketTextStream读取9999端口数据,统计在一定时间内不同类型商品的销售总额度,如果持续销售额度为0,则执行定时器通知老板,是不是卖某种类型商品的员工偷懒了(只做功能演示,根据个人业务来使用,比如统计UV等操作)。 ProcessFunction是一个低阶的流处理操 阅读全文
posted @ 2021-07-15 20:13 大数据从业者FelixZh 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。 1.数据倾斜的原理和影响 1.1 原理 数据倾斜就是数据的分布严重不均,造成一部分数据很多,一部分数据很少的局面。 数据分布理论上都是倾斜的,符合“二八原理”:例如80%的财富集中在20%的人 阅读全文
posted @ 2021-07-15 17:18 大数据从业者FelixZh 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 根据Heartbeat of TaskManager with id和The heartbeat of ResourceManager with id在源码中找出这样的代码 private class TaskManagerHeartbeatListener implements Heartbeat 阅读全文
posted @ 2021-06-16 23:37 大数据从业者FelixZh 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 今早看到一台机器时间对不上,本以为系统时间与网络北京时间不同步,就在终端命令执行网络时间同步 [root@felixzh1 ~]# ntpdate time.windows.com 执行完之后,在执行终端命令,查看时间还是一样,其实EDT和CST是有区别的,时区不一样 EDT:指美国东部夏令时间,波 阅读全文
posted @ 2021-06-16 13:55 大数据从业者FelixZh 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 一台机器经常收到丢包的报警,先看看最底层的有没有问题: # ethtool em2 | egrep 'Speed|Duplex' Speed: 1000Mb/s Duplex: Full # ethtool -S em2 | grep crc rx_crc_errors: 0 Speed, Dupl 阅读全文
posted @ 2021-06-02 22:56 大数据从业者FelixZh 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1. 修改配置文件,在ipv4地址基础上,增加ipv6地址的配置信息,ipv6地址设置为2010::25 [root@felixzh ~]# vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0ONBOOT=yesBOOTPROTO=st 阅读全文
posted @ 2021-05-27 09:26 大数据从业者FelixZh 阅读(105) 评论(0) 推荐(0) 编辑
摘要: Question: I notice that one of my applications is trying to establish a connection over IPv6. But since our local network is not able to route IPv6 tr 阅读全文
posted @ 2021-05-27 09:14 大数据从业者FelixZh 阅读(190) 评论(0) 推荐(0) 编辑
摘要: I am in a bit of a bind (pun intended). I have a ubuntu server running kafka & zookeeper. This server has both ipv4 and ipv6 protocols installed. In t 阅读全文
posted @ 2021-05-27 08:59 大数据从业者FelixZh 阅读(144) 评论(0) 推荐(0) 编辑
摘要: Morgan Stanley uses Apache Kafka® to publish market data to internal clients and to persist it for replay purposes. We started out using librdkafka’s 阅读全文
posted @ 2021-05-15 13:43 大数据从业者FelixZh 阅读(83) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka® is one of the most popular event streaming systems. There are many ways to compare systems in this space, but one thing everyone cares a 阅读全文
posted @ 2021-05-15 09:00 大数据从业者FelixZh 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 前言概述 1. JavaSSL认证 SSL(Secure Socket Layer安全套接层),及其继任者传输层安全(Transport ;ayer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密。 2. Kerberos认证 + 阅读全文
posted @ 2021-04-15 09:51 大数据从业者FelixZh 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 1.下载postgresql安装包和依赖包 依赖包包括:gcc、zlib、readline等 yum install -y zlib-devel gcc readline readline-devel postgresql包下载地址: https://ftp.postgresql.org/pub/s 阅读全文
posted @ 2021-03-12 15:25 大数据从业者FelixZh 阅读(79) 评论(0) 推荐(0) 编辑
摘要: postgresql在线安装很简单 进入官网: https://www.posthttps://www.postgresql.org/gresql.org/ 如文档所示,在线安装步骤与命令: sudo yum install -y https://download.postgresql.org/pu 阅读全文
posted @ 2021-03-12 15:12 大数据从业者FelixZh 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 当update时连接dl.google.com超时,原因是当前ip无法ping到google(墙)。 解决方法: 1. 使用站长工具查询可用IP http://ping.chinaz.com/dl.google.com 2. sudo vim /etc/hosts 阅读全文
posted @ 2021-03-06 14:58 大数据从业者FelixZh 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 解决方法:将info文件夹更名 sudo mv /var/lib/dpkg/info /var/lib/dpkg/info.bk 新建一个新的info文件夹 sudo mkdir /var/lib/dpkg/info 安装修复 sudo apt-get update sudo apt-get ins 阅读全文
posted @ 2021-03-06 14:31 大数据从业者FelixZh 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 一、问题 在使用 apt-get update 在 Ubuntu 环境更新包资源时,出现了以下报错: Ign http://repo.mysql.com trusty/mysql-tools Translation-en Fetched 3,164 B in 1min 42s (30 B/s) Re 阅读全文
posted @ 2021-03-06 14:26 大数据从业者FelixZh 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 错误描述: [root@nna hadoop-3.2.2]# start-dfs.sh Starting namenodes on [nna nns] ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is 阅读全文
posted @ 2021-03-05 14:18 大数据从业者FelixZh 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 近日,Hudi社区合并了 Flink 引擎的基础实现(HUDI-1327),这意味着 Hudi 开始支持 Flink 引擎。 当前 Flink 版本的 Hudi 只支持读取 Kafka 数据,sink到 COW 类型的 Hudi 表中,其他功能还在完善。 这里我们简要介绍下如何从 Kafka 读取数 阅读全文
posted @ 2021-03-04 10:20 大数据从业者FelixZh 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 中文版见微信公众号:大数据从业者 18 Jan 2021 Jun Qin Stream processing applications are often stateful, “remembering” information from processed events and using it t 阅读全文
posted @ 2021-03-02 15:03 大数据从业者FelixZh 阅读(303) 评论(0) 推荐(0) 编辑