摘要:
I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
摘要:
https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文
摘要:
http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾 由 Jay Kreps创建, 最终由 Ray Chiang修改于 阅读全文
摘要:
Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8 阅读全文
摘要:
国内某大数据供应商 岗位要求1、本科以上学历,计算机及相关专业毕业。2、对大数据处理有强烈兴趣,掌握至少一种主流开源技术方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验,掌握Python/Sc 阅读全文
摘要:
本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。 采用单master,单node(可以多node),占用资源较少,方便在笔记本或学习环境快速部署,不适用于生产环境。 所需文件百度盘连接 链接:https://pan.baidu.com/s/1iQJpKZ9P 阅读全文
摘要:
前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
摘要:
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节... 阅读全文
摘要:
1.登录前先请求,获取一个token,也可以在本地写死暂且叫登录token,用来给登录时密码的加密 async getToken(){ const {data:token} = await getToken() // token : eaaaaaaaaaIUzI1NiJ9.eyJ1aWQiOiJDR 阅读全文
摘要:
进行HTTP网络通信的时候,调用API向服务器请求数据,有时为了防止API调用过程中被黑客恶意篡改,所请求参数需要进行MD5算法计算,得到摘要签名。服务端会根据请求参数,对签名进行验证,签名不合法的请求将会被拒绝。 但是目前原生JS貌似并没有提供MD5计算相关的函数方法,只能自己实现或者使用前辈大神 阅读全文
摘要:
我们用js-cookie这款插件来设置cookie,比较方便,可以自行查看文档。 js-cookie 的示例中只有以天为单位的有效期: Cookies.set('name', 'value', { expires: 7 }); // 7 天后失效 官方文档只要设置天数,没有时分秒,这样我们想设置更小 阅读全文
摘要:
在学习Cookie、Session和Token之前,我们先了解下HTTP的无状态协议。 1、HTTP的无状态协议 HTTP无状态协议是指该协议对事件的处理过程没有记忆能力,当后续的步骤需要上一步的信息时,则需要重传,即需要携带上一次的信息。 因此,对于存在依赖性的访问请求,则下一次的传递需要携带上一 阅读全文
摘要:
java -jar错误信息如下: Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH 阅读全文
摘要:
在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求: 原始数据格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t 阅读全文
摘要:
每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。 01 背景 随着数据时效性对企业的精细化运营越来越重要,“实时即未来” 阅读全文
摘要:
在我们做测试之前,调研了一些已有的大数据平台性能测试报告,比如,雅虎的Streaming-benchmarks,或者Intel的HiBench等等。除此之外,还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点,但他们都用到了同样的两个指标,即吞吐和延迟。吞吐 阅读全文
摘要:
BRIJESH JAGGI SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, dra 阅读全文
摘要:
SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, drawbacks do exis 阅读全文
摘要:
一、背景 一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。 二、官方Schema Evolution例子 从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文
摘要:
1、什么是zookeeper的会话过期? 通常使用zookeeper集群模式,client和zookeeper集群(3个实例)建立一个会话session。 所谓session即client随机与其中一个zk provider建立的链接,并且互发心跳heartbeat。 zookeeper集群负责管理 阅读全文
摘要:
ZooKeeper的超时异常包括两种: 1)客户端的readTimeout导致连接丢失。 2)服务端会话超时sessionTimeout导致客户端连接失效。 客户端的readTimeout导致连接丢失 ZooKeeper客户端的readTimeout无法显示设置,根据会话超时时间计算得来: 1. 当 阅读全文
摘要:
104 56 I have written a small program that interacts with a server on a specific port. The program works fine, but: Once the program terminated unexpe 阅读全文
摘要:
1. 概述 官方https://docs.oracle.com/javase/9/docs/api/com/sun/net/httpserver/package-summary.html HttpServer 是 JDK 1.6 以后内置的一个轻量级 HTTP 服务器(在 rt.jar 包中的 co 阅读全文
摘要:
Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文
摘要:
生成数据的目录需要提前创建好 [root@felixzh tools]# mkdir /home/my_data_1G 阅读全文
摘要:
问题现象 当Key数量较少时,Flink流执行KeyBy(),并且设置的并行度setParallelism()不唯一时,会出现分到不同task上的key数量不均匀的情况,即: 某些subtask没有分到数据,但是某些subtask分到了较多的key对应的数据 Key数量较大时,不容易出现这类不均匀的 阅读全文
摘要:
最近工作中发现老是有同事遇到NoClassDefFoundError以及ClassNotFoundException这两种异常,很对人对此比较困惑,于是研究了一下并整理了此文档,希望对大家有所帮助。ClassNotFoundException这个比较好理解,就是找不到类。其直接原因是:当应用调用类的 阅读全文
摘要:
一、引言 HBase其存储和读写的高性能,作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深 阅读全文
摘要:
最近在编译cruise-control-2.5.92,gradle提示 Using insecure protocols with repositories, without explicit opt-in, has been deprecated. This is scheduled to be 阅读全文
摘要:
Configuring Kerberos with OpenLDAP back-end Make sure the LDAP server is using local authentication (ldapi://) or TLS (ldaps). See https://www.openlda 阅读全文
摘要:
Kerberos supports a few database backends. The default one is what we have been using so far, called db2. The DB Types documentation shows all the opt 阅读全文
摘要:
BitMap 现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位。许多开发语言都提供了操作位的功能,合理地使用位能够有效地提高内存使用率和开发效率。 Bit-map 的基本思想就是用一个 bit 位来标记某个元素对应的 value,而 key 即是该元素。由于采用了 bit 阅读全文
摘要:
什么是 Hash Hash(哈希),又称“散列”。在某种程度上,散列是与排序相反的一种操作,排序是将集合中的元素按照某种方式比如字典顺序排列在一起。而散列通过计算哈希值,打破元素之间原有的关系,使集合中的元素按照散列函数的分类进行排列。 在介绍一些集合时,我们总强调需要重写某个类的 equlas() 阅读全文
摘要:
Bloom filter 是一个数据结构,它可以用来判断某个元素是否在集合内,具有运行快速,内存占用小的特点。 而高效插入和查询的代价就是,Bloom Filter 是一个基于概率的数据结构:它只能告诉我们一个元素绝对不在集合内或可能在集合内 Bloom filter 的基础数据结构是一个 比特向量 阅读全文
摘要:
Introduction What would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code 阅读全文
摘要:
Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
摘要:
We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文
摘要:
Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含 阅读全文