摘要: I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2020-01-09 11:31 大数据从业者FelixZh 阅读(453) 评论(0) 推荐(1) 编辑
摘要: https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文
posted @ 2019-02-15 16:20 大数据从业者FelixZh 阅读(806) 评论(0) 推荐(1) 编辑
摘要: http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾 由 Jay Kreps创建, 最终由 Ray Chiang修改于  阅读全文
posted @ 2019-01-23 10:07 大数据从业者FelixZh 阅读(1150) 评论(0) 推荐(1) 编辑
摘要: Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8 阅读全文
posted @ 2018-11-27 14:21 大数据从业者FelixZh 阅读(932) 评论(0) 推荐(0) 编辑
摘要: 国内某大数据供应商 岗位要求1、本科以上学历,计算机及相关专业毕业。2、对大数据处理有强烈兴趣,掌握至少一种主流开源技术方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验,掌握Python/Sc 阅读全文
posted @ 2018-10-27 09:16 大数据从业者FelixZh 阅读(1559) 评论(0) 推荐(0) 编辑
摘要: 本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。 采用单master,单node(可以多node),占用资源较少,方便在笔记本或学习环境快速部署,不适用于生产环境。 所需文件百度盘连接 链接:https://pan.baidu.com/s/1iQJpKZ9P 阅读全文
posted @ 2018-09-29 18:59 大数据从业者FelixZh 阅读(2475) 评论(1) 推荐(0) 编辑
摘要: 前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3560) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-06 18:25 大数据从业者FelixZh 阅读(2539) 评论(3) 推荐(0) 编辑
摘要: Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节... 阅读全文
posted @ 2015-11-27 16:01 大数据从业者FelixZh 阅读(1095) 评论(0) 推荐(0) 编辑
摘要: 1.登录前先请求,获取一个token,也可以在本地写死暂且叫登录token,用来给登录时密码的加密 async getToken(){ const {data:token} = await getToken() // token : eaaaaaaaaaIUzI1NiJ9.eyJ1aWQiOiJDR 阅读全文
posted @ 2022-11-17 20:38 大数据从业者FelixZh 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 进行HTTP网络通信的时候,调用API向服务器请求数据,有时为了防止API调用过程中被黑客恶意篡改,所请求参数需要进行MD5算法计算,得到摘要签名。服务端会根据请求参数,对签名进行验证,签名不合法的请求将会被拒绝。 但是目前原生JS貌似并没有提供MD5计算相关的函数方法,只能自己实现或者使用前辈大神 阅读全文
posted @ 2022-11-17 20:33 大数据从业者FelixZh 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 我们用js-cookie这款插件来设置cookie,比较方便,可以自行查看文档。 js-cookie 的示例中只有以天为单位的有效期: Cookies.set('name', 'value', { expires: 7 }); // 7 天后失效 官方文档只要设置天数,没有时分秒,这样我们想设置更小 阅读全文
posted @ 2022-11-17 20:31 大数据从业者FelixZh 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 在学习Cookie、Session和Token之前,我们先了解下HTTP的无状态协议。 1、HTTP的无状态协议 HTTP无状态协议是指该协议对事件的处理过程没有记忆能力,当后续的步骤需要上一步的信息时,则需要重传,即需要携带上一次的信息。 因此,对于存在依赖性的访问请求,则下一次的传递需要携带上一 阅读全文
posted @ 2022-11-12 16:04 大数据从业者FelixZh 阅读(157) 评论(0) 推荐(0) 编辑
摘要: java -jar错误信息如下: Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH 阅读全文
posted @ 2022-11-04 21:45 大数据从业者FelixZh 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求: 原始数据格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t 阅读全文
posted @ 2022-11-01 09:17 大数据从业者FelixZh 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。 01 背景 随着数据时效性对企业的精细化运营越来越重要,“实时即未来” 阅读全文
posted @ 2022-10-29 19:38 大数据从业者FelixZh 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 在我们做测试之前,调研了一些已有的大数据平台性能测试报告,比如,雅虎的Streaming-benchmarks,或者Intel的HiBench等等。除此之外,还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点,但他们都用到了同样的两个指标,即吞吐和延迟。吞吐 阅读全文
posted @ 2022-10-29 19:26 大数据从业者FelixZh 阅读(216) 评论(0) 推荐(0) 编辑
摘要: BRIJESH JAGGI SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, dra 阅读全文
posted @ 2022-10-14 23:04 大数据从业者FelixZh 阅读(14) 评论(0) 推荐(0) 编辑
摘要: SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, drawbacks do exis 阅读全文
posted @ 2022-10-13 15:22 大数据从业者FelixZh 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 一、背景 一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。 二、官方Schema Evolution例子 从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文
posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1、什么是zookeeper的会话过期? 通常使用zookeeper集群模式,client和zookeeper集群(3个实例)建立一个会话session。 所谓session即client随机与其中一个zk provider建立的链接,并且互发心跳heartbeat。 zookeeper集群负责管理 阅读全文
posted @ 2022-09-17 16:46 大数据从业者FelixZh 阅读(236) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper的超时异常包括两种: 1)客户端的readTimeout导致连接丢失。 2)服务端会话超时sessionTimeout导致客户端连接失效。 客户端的readTimeout导致连接丢失 ZooKeeper客户端的readTimeout无法显示设置,根据会话超时时间计算得来: 1. 当 阅读全文
posted @ 2022-09-17 15:49 大数据从业者FelixZh 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 104 56 I have written a small program that interacts with a server on a specific port. The program works fine, but: Once the program terminated unexpe 阅读全文
posted @ 2022-07-04 19:47 大数据从业者FelixZh 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 官方https://docs.oracle.com/javase/9/docs/api/com/sun/net/httpserver/package-summary.html HttpServer 是 JDK 1.6 以后内置的一个轻量级 HTTP 服务器(在 rt.jar 包中的 co 阅读全文
posted @ 2022-07-04 14:53 大数据从业者FelixZh 阅读(480) 评论(0) 推荐(0) 编辑
摘要: Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文
posted @ 2022-06-24 16:26 大数据从业者FelixZh 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 生成数据的目录需要提前创建好 [root@felixzh tools]# mkdir /home/my_data_1G 阅读全文
posted @ 2022-06-22 17:18 大数据从业者FelixZh 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 问题现象 当Key数量较少时,Flink流执行KeyBy(),并且设置的并行度setParallelism()不唯一时,会出现分到不同task上的key数量不均匀的情况,即: 某些subtask没有分到数据,但是某些subtask分到了较多的key对应的数据 Key数量较大时,不容易出现这类不均匀的 阅读全文
posted @ 2022-06-01 22:39 大数据从业者FelixZh 阅读(991) 评论(0) 推荐(1) 编辑
摘要: 最近工作中发现老是有同事遇到NoClassDefFoundError以及ClassNotFoundException这两种异常,很对人对此比较困惑,于是研究了一下并整理了此文档,希望对大家有所帮助。ClassNotFoundException这个比较好理解,就是找不到类。其直接原因是:当应用调用类的 阅读全文
posted @ 2022-05-27 16:59 大数据从业者FelixZh 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 一、引言 HBase其存储和读写的高性能,作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深 阅读全文
posted @ 2022-05-24 19:54 大数据从业者FelixZh 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 最近在编译cruise-control-2.5.92,gradle提示 Using insecure protocols with repositories, without explicit opt-in, has been deprecated. This is scheduled to be 阅读全文
posted @ 2022-05-19 10:54 大数据从业者FelixZh 阅读(835) 评论(0) 推荐(0) 编辑
摘要: Configuring Kerberos with OpenLDAP back-end Make sure the LDAP server is using local authentication (ldapi://) or TLS (ldaps). See https://www.openlda 阅读全文
posted @ 2022-05-14 09:17 大数据从业者FelixZh 阅读(40) 评论(0) 推荐(0) 编辑
摘要: Kerberos supports a few database backends. The default one is what we have been using so far, called db2. The DB Types documentation shows all the opt 阅读全文
posted @ 2022-05-14 09:16 大数据从业者FelixZh 阅读(51) 评论(0) 推荐(0) 编辑
摘要: BitMap 现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位。许多开发语言都提供了操作位的功能,合理地使用位能够有效地提高内存使用率和开发效率。 Bit-map 的基本思想就是用一个 bit 位来标记某个元素对应的 value,而 key 即是该元素。由于采用了 bit 阅读全文
posted @ 2022-04-22 09:42 大数据从业者FelixZh 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 什么是 Hash Hash(哈希),又称“散列”。在某种程度上,散列是与排序相反的一种操作,排序是将集合中的元素按照某种方式比如字典顺序排列在一起。而散列通过计算哈希值,打破元素之间原有的关系,使集合中的元素按照散列函数的分类进行排列。 在介绍一些集合时,我们总强调需要重写某个类的 equlas() 阅读全文
posted @ 2022-04-21 20:26 大数据从业者FelixZh 阅读(94) 评论(0) 推荐(0) 编辑
摘要: Bloom filter 是一个数据结构,它可以用来判断某个元素是否在集合内,具有运行快速,内存占用小的特点。 而高效插入和查询的代价就是,Bloom Filter 是一个基于概率的数据结构:它只能告诉我们一个元素绝对不在集合内或可能在集合内 Bloom filter 的基础数据结构是一个 比特向量 阅读全文
posted @ 2022-04-21 20:01 大数据从业者FelixZh 阅读(35) 评论(0) 推荐(0) 编辑
摘要: Introduction What would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code 阅读全文
posted @ 2022-04-21 16:06 大数据从业者FelixZh 阅读(43) 评论(0) 推荐(0) 编辑
摘要: Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-04-19 19:49 大数据从业者FelixZh 阅读(19) 评论(0) 推荐(0) 编辑
摘要: We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文
posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(136) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含 阅读全文
posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(610) 评论(0) 推荐(0) 编辑