摘要:
How to identify the source of backpressure? 07 Jul 2021 Piotr Nowojski (@PiotrNowojski) What is backpressure? Why should I care about backpressure? Wh
阅读全文
posted @ 2021-09-06 19:23
大数据从业者FelixZh
阅读(597)
推荐(0)
摘要:
对于很多在公司维护开源项目的工程师来说,成为 Apache 项目的 committer 应该是很多人的一个小梦想,那么怎么才能成为一位 committer,对于一些比较成熟的项目,现在想成为 committer 是有一定的难度,但也不是不可能。 How can I become an Apache
阅读全文
posted @ 2021-09-06 16:39
大数据从业者FelixZh
阅读(749)
推荐(0)
摘要:
Apache Kafka KIP 介绍 Apache Kafka KIP 的全称是:Kafka Improvement Proposal,由此可见是社区为了优化Kafka而编写的提案。每条提案代表着Kafka的某个功能更新或者筹划未来的更新。 Apache Kafka KIP 有一个专门的页面,罗列
阅读全文
posted @ 2021-09-01 14:07
大数据从业者FelixZh
阅读(415)
推荐(0)
摘要:
As covered in a recent blog post, RocksDB is a state backend in Flink that allows a job to have state larger than the amount of available memory as th
阅读全文
posted @ 2021-08-31 17:12
大数据从业者FelixZh
阅读(161)
推荐(0)
摘要:
案例功能说明 通过socketTextStream读取9999端口数据,统计在一定时间内不同类型商品的销售总额度,如果持续销售额度为0,则执行定时器通知老板,是不是卖某种类型商品的员工偷懒了(只做功能演示,根据个人业务来使用,比如统计UV等操作)。 ProcessFunction是一个低阶的流处理操
阅读全文
posted @ 2021-07-15 20:13
大数据从业者FelixZh
阅读(953)
推荐(0)
摘要:
在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。 1.数据倾斜的原理和影响 1.1 原理 数据倾斜就是数据的分布严重不均,造成一部分数据很多,一部分数据很少的局面。 数据分布理论上都是倾斜的,符合“二八原理”:例如80%的财富集中在20%的人
阅读全文
posted @ 2021-07-15 17:18
大数据从业者FelixZh
阅读(4688)
推荐(0)
摘要:
根据Heartbeat of TaskManager with id和The heartbeat of ResourceManager with id在源码中找出这样的代码 private class TaskManagerHeartbeatListener implements Heartbeat
阅读全文
posted @ 2021-06-16 23:37
大数据从业者FelixZh
阅读(4998)
推荐(0)
摘要:
今早看到一台机器时间对不上,本以为系统时间与网络北京时间不同步,就在终端命令执行网络时间同步 [root@felixzh1 ~]# ntpdate time.windows.com 执行完之后,在执行终端命令,查看时间还是一样,其实EDT和CST是有区别的,时区不一样 EDT:指美国东部夏令时间,波
阅读全文
posted @ 2021-06-16 13:55
大数据从业者FelixZh
阅读(672)
推荐(0)
摘要:
一台机器经常收到丢包的报警,先看看最底层的有没有问题: # ethtool em2 | egrep 'Speed|Duplex' Speed: 1000Mb/s Duplex: Full # ethtool -S em2 | grep crc rx_crc_errors: 0 Speed, Dupl
阅读全文
posted @ 2021-06-02 22:56
大数据从业者FelixZh
阅读(3510)
推荐(1)
摘要:
1. 修改配置文件,在ipv4地址基础上,增加ipv6地址的配置信息,ipv6地址设置为2010::25 [root@felixzh ~]# vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0ONBOOT=yesBOOTPROTO=st
阅读全文
posted @ 2021-05-27 09:26
大数据从业者FelixZh
阅读(1176)
推荐(0)
摘要:
Question: I notice that one of my applications is trying to establish a connection over IPv6. But since our local network is not able to route IPv6 tr
阅读全文
posted @ 2021-05-27 09:14
大数据从业者FelixZh
阅读(1304)
推荐(0)
摘要:
I am in a bit of a bind (pun intended). I have a ubuntu server running kafka & zookeeper. This server has both ipv4 and ipv6 protocols installed. In t
阅读全文
posted @ 2021-05-27 08:59
大数据从业者FelixZh
阅读(1202)
推荐(0)
摘要:
Morgan Stanley uses Apache Kafka® to publish market data to internal clients and to persist it for replay purposes. We started out using librdkafka’s
阅读全文
posted @ 2021-05-15 13:43
大数据从业者FelixZh
阅读(437)
推荐(0)
摘要:
Apache Kafka® is one of the most popular event streaming systems. There are many ways to compare systems in this space, but one thing everyone cares a
阅读全文
posted @ 2021-05-15 09:00
大数据从业者FelixZh
阅读(1138)
推荐(0)
摘要:
前言概述 1. JavaSSL认证 SSL(Secure Socket Layer安全套接层),及其继任者传输层安全(Transport ;ayer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密。 2. Kerberos认证 +
阅读全文
posted @ 2021-04-15 09:51
大数据从业者FelixZh
阅读(5667)
推荐(0)
摘要:
1.下载postgresql安装包和依赖包 依赖包包括:gcc、zlib、readline等 yum install -y zlib-devel gcc readline readline-devel postgresql包下载地址: https://ftp.postgresql.org/pub/s
阅读全文
posted @ 2021-03-12 15:25
大数据从业者FelixZh
阅读(426)
推荐(0)
摘要:
postgresql在线安装很简单 进入官网: https://www.posthttps://www.postgresql.org/gresql.org/ 如文档所示,在线安装步骤与命令: sudo yum install -y https://download.postgresql.org/pu
阅读全文
posted @ 2021-03-12 15:12
大数据从业者FelixZh
阅读(987)
推荐(0)
摘要:
当update时连接dl.google.com超时,原因是当前ip无法ping到google(墙)。 解决方法: 1. 使用站长工具查询可用IP http://ping.chinaz.com/dl.google.com 2. sudo vim /etc/hosts
阅读全文
posted @ 2021-03-06 14:58
大数据从业者FelixZh
阅读(2633)
推荐(0)
摘要:
解决方法:将info文件夹更名 sudo mv /var/lib/dpkg/info /var/lib/dpkg/info.bk 新建一个新的info文件夹 sudo mkdir /var/lib/dpkg/info 安装修复 sudo apt-get update sudo apt-get ins
阅读全文
posted @ 2021-03-06 14:31
大数据从业者FelixZh
阅读(354)
推荐(0)
摘要:
一、问题 在使用 apt-get update 在 Ubuntu 环境更新包资源时,出现了以下报错: Ign http://repo.mysql.com trusty/mysql-tools Translation-en Fetched 3,164 B in 1min 42s (30 B/s) Re
阅读全文
posted @ 2021-03-06 14:26
大数据从业者FelixZh
阅读(1664)
推荐(0)
摘要:
错误描述: [root@nna hadoop-3.2.2]# start-dfs.sh Starting namenodes on [nna nns] ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is
阅读全文
posted @ 2021-03-05 14:18
大数据从业者FelixZh
阅读(950)
推荐(0)
摘要:
近日,Hudi社区合并了 Flink 引擎的基础实现(HUDI-1327),这意味着 Hudi 开始支持 Flink 引擎。 当前 Flink 版本的 Hudi 只支持读取 Kafka 数据,sink到 COW 类型的 Hudi 表中,其他功能还在完善。 这里我们简要介绍下如何从 Kafka 读取数
阅读全文
posted @ 2021-03-04 10:20
大数据从业者FelixZh
阅读(3215)
推荐(0)
摘要:
中文版见微信公众号:大数据从业者 18 Jan 2021 Jun Qin Stream processing applications are often stateful, “remembering” information from processed events and using it t
阅读全文
posted @ 2021-03-02 15:03
大数据从业者FelixZh
阅读(670)
推荐(0)
摘要:
a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=hive a1.sinks.s
阅读全文
posted @ 2020-12-24 10:40
大数据从业者FelixZh
阅读(161)
推荐(0)
摘要:
本文项目源码见github:https://github.com/felixzh2020/felixzh-learning-flink/tree/master/canal 版本信息 产品版本 Flink 1.11.1 flink-cdc-connectors 1.1.0 Java 1.8.0_231
阅读全文
posted @ 2020-12-04 15:23
大数据从业者FelixZh
阅读(753)
推荐(0)
摘要:
本文主要阐述的是Kafka可靠性相关参数中的一个,即unclean.leader.election.enable。 随着Kafka版本的变更,有的参数消失,也有的参数被加入进来,而传承下来的参数一般都不太会修改既定的默认值,而unclean.leader.election.enable参数却是其中的
阅读全文
posted @ 2020-11-30 11:16
大数据从业者FelixZh
阅读(678)
推荐(0)
摘要:
作者:LittleMagic 大数据领域 SQL 化开发的风潮方兴未艾(所谓"Everybody knows SQL"),Flink 自然也不能“免俗”。 Flink SQL 是 Flink 系统内部最高级别的 API,也是流批一体思想的集大成者。 用户可以通过简单明了的 SQL 语句像查表一样执行
阅读全文
posted @ 2020-11-27 15:57
大数据从业者FelixZh
阅读(745)
推荐(0)
摘要:
https://stackoverflow.com/questions/35652665/java-io-ioexception-could-not-locate-executable-null-bin-winutils-exe-in-the-ha 93 29 I'm not able to run
阅读全文
posted @ 2020-11-23 13:55
大数据从业者FelixZh
阅读(547)
推荐(0)
摘要:
一、 首先添加四块硬盘 二、reboot重启并对磁盘进行初始化设置 reboot重启 三、搭建raid5 1,yum install -y mdadm //安装madam (madam是Linux下的raid管理工具) 2,mdadm -C /dev/md0 -ayes -l5 -n3 -x1 /d
阅读全文
posted @ 2020-09-30 16:55
大数据从业者FelixZh
阅读(1268)
推荐(0)
摘要:
前言 硬件磁盘阵列(Hardware RAID) 简单来说就是全部通过用硬件来实现RAID功能的就是硬RAID,比如:各种RAID卡,还有主板集成能够做的RAID都是硬RAID。 所以硬 RAID 就是用专门的RAID控制器(RAID 卡)将硬盘和电脑连接起来,RAID控制器负责将所有的RAID成员
阅读全文
posted @ 2020-09-30 16:52
大数据从业者FelixZh
阅读(1064)
推荐(1)