摘要:I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2020-01-09 11:31 微信-大数据从业者 阅读(210) 评论(0) 推荐(1) 编辑
摘要:https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文
posted @ 2019-02-15 16:20 微信-大数据从业者 阅读(616) 评论(0) 推荐(1) 编辑
摘要:http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾 由 Jay Kreps创建, 最终由 Ray Chiang修改于  阅读全文
posted @ 2019-01-23 10:07 微信-大数据从业者 阅读(708) 评论(0) 推荐(1) 编辑
摘要:Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8 阅读全文
posted @ 2018-11-27 14:21 微信-大数据从业者 阅读(604) 评论(0) 推荐(0) 编辑
摘要:国内某大数据供应商 岗位要求1、本科以上学历,计算机及相关专业毕业。2、对大数据处理有强烈兴趣,掌握至少一种主流开源技术方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验,掌握Python/Sc 阅读全文
posted @ 2018-10-27 09:16 微信-大数据从业者 阅读(1264) 评论(0) 推荐(0) 编辑
摘要:本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。 采用单master,单node(可以多node),占用资源较少,方便在笔记本或学习环境快速部署,不适用于生产环境。 所需文件百度盘连接 链接:https://pan.baidu.com/s/1iQJpKZ9P 阅读全文
posted @ 2018-09-29 18:59 微信-大数据从业者 阅读(1660) 评论(1) 推荐(0) 编辑
摘要:前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
posted @ 2018-09-21 11:09 微信-大数据从业者 阅读(2520) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-06 18:25 微信-大数据从业者 阅读(1751) 评论(3) 推荐(0) 编辑
摘要:Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节... 阅读全文
posted @ 2015-11-27 16:01 微信-大数据从业者 阅读(731) 评论(0) 推荐(0) 编辑
摘要:https://stackoverflow.com/questions/35652665/java-io-ioexception-could-not-locate-executable-null-bin-winutils-exe-in-the-ha 93 29 I'm not able to run 阅读全文
posted @ 2020-11-23 13:55 微信-大数据从业者 阅读(9) 评论(0) 推荐(0) 编辑
摘要:一、 首先添加四块硬盘 二、reboot重启并对磁盘进行初始化设置 reboot重启 三、搭建raid5 1,yum install -y mdadm //安装madam (madam是Linux下的raid管理工具) 2,mdadm -C /dev/md0 -ayes -l5 -n3 -x1 /d 阅读全文
posted @ 2020-09-30 16:55 微信-大数据从业者 阅读(70) 评论(0) 推荐(0) 编辑
摘要:前言 硬件磁盘阵列(Hardware RAID) 简单来说就是全部通过用硬件来实现RAID功能的就是硬RAID,比如:各种RAID卡,还有主板集成能够做的RAID都是硬RAID。 所以硬 RAID 就是用专门的RAID控制器(RAID 卡)将硬盘和电脑连接起来,RAID控制器负责将所有的RAID成员 阅读全文
posted @ 2020-09-30 16:52 微信-大数据从业者 阅读(99) 评论(0) 推荐(0) 编辑
摘要:Problem There are time we would want to remove a ZK node in a secure cluster which is ACL protected. Something as below ACLs [zk: xyz.com:2181(CONNECT 阅读全文
posted @ 2020-09-21 10:45 微信-大数据从业者 阅读(68) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、Kafka的权限分类 1)、身份认证(Authentication):对client 与服务器的连接进行身份认证,brokers和zookeeper之间的连接进行Authentication(producer 和 consumer)、其他 brokers、tools与 brokers 阅读全文
posted @ 2020-09-19 10:43 微信-大数据从业者 阅读(475) 评论(0) 推荐(0) 编辑
摘要:while I add catalogs in sql-gateway-defaults.yaml: catalogs: name: catalog_hive type: hive hive-conf-dir: /opt/software/flink-sql-gateway-0.1-SNAPSHOT 阅读全文
posted @ 2020-08-27 16:52 微信-大数据从业者 阅读(496) 评论(0) 推荐(0) 编辑
摘要:最近有项目需求,flink写hive,暂不考虑性能要求。用hive jdbc简单封装了个sinkToHive,在开启kerberos的环境中,遇到如题的错误。 还有一个现象就是,首次hive操作是成功的,之后才是java.sql.SQLException: org.apache.thrift.tra 阅读全文
posted @ 2020-08-27 09:20 微信-大数据从业者 阅读(269) 评论(0) 推荐(0) 编辑
摘要:14 Jul 2020 Kostas Kloudas (@kkloudas) With the rise of stream processing and real-time analytics as a critical tool for modern businesses, an increas 阅读全文
posted @ 2020-08-18 17:47 微信-大数据从业者 阅读(80) 评论(0) 推荐(0) 编辑
摘要:7 3 I'm trying to save dataframe in table hive. In spark 1.6 it's work but after migration to 2.2.0 it doesn't work anymore. Here's the code: blocs .t 阅读全文
posted @ 2020-08-14 14:00 微信-大数据从业者 阅读(159) 评论(0) 推荐(0) 编辑
摘要:6 2 I am submitting a job to YARN (on spark 2.1.1 + kafka 0.10.2.1) which connects to a secured hbase cluster. This job, performs just fine when i am 阅读全文
posted @ 2020-08-12 13:51 微信-大数据从业者 阅读(174) 评论(0) 推荐(0) 编辑
摘要:详细报错日志 org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Unable to instantiate java compiler at org.apache. 阅读全文
posted @ 2020-08-06 18:20 微信-大数据从业者 阅读(677) 评论(1) 推荐(0) 编辑
摘要:在Linux系统中,我们经常用free命令来查看系统内存的使用状态。在一个RHEL6的系统上,free命令的显示内容大概是这样一个状态: 这里的默认显示单位是kb,我的服务器是128G内存,所以数字显得比较大。这个命令几乎是每一个使用过Linux的人必会的命令,但越是这样的命令,似乎真正明白的人越少 阅读全文
posted @ 2020-07-27 11:24 微信-大数据从业者 阅读(296) 评论(0) 推荐(0) 编辑
摘要:有些依赖不想使用maven管理或者使用maven下载不下来,而又不想在本地maven仓库手动上传依赖 那就手动导入个lib文件夹吧。 1、在src下创建lib目录,将jar包放入其中 2、右键lib文件夹,选择Add as Library即可 阅读全文
posted @ 2020-07-21 09:31 微信-大数据从业者 阅读(371) 评论(0) 推荐(0) 编辑
摘要:哪些原因可能会导致JAVA进程被kill呢? Java应用程序的问题:发生OOM导致进程Crash JVM自身故障:JVM或JDK自身的Bug导致进程Crash 被操作系统OOM-Killer 该如何去排查问题呢? Java应用程序的问题:发生OOM导致进程Crash 这种情况主要取决于研发代码质量 阅读全文
posted @ 2020-07-16 17:10 微信-大数据从业者 阅读(524) 评论(0) 推荐(0) 编辑
摘要:Java线程池概述 线程池技术在并发时经常会使用到,java中的线程池的使用是通过调用ThreadPoolExecutor来实现的。 ThreadPoolExecutor提供了四个构造函数,最后都会归结于下面这个构造方法: /** * Creates a new {@code ThreadPoolE 阅读全文
posted @ 2020-07-01 16:59 微信-大数据从业者 阅读(179) 评论(0) 推荐(0) 编辑
摘要:nmon开源性能监控工具,用于监控linux系统的资源消耗信息,并能把结果输出到文件中,然后通过nmon_analyser工具产生数据文件与图形化结果。 一、安装软件 下载nmon安装包:http://nmon.sourceforge.net/pmwiki.php?n=Site.Download选择 阅读全文
posted @ 2020-06-22 13:54 微信-大数据从业者 阅读(151) 评论(0) 推荐(0) 编辑
摘要:为什么要管理状态 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,我们想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重 阅读全文
posted @ 2020-06-20 09:56 微信-大数据从业者 阅读(664) 评论(0) 推荐(0) 编辑
摘要:修改/etc/docker/daemon.json { "registry-mirrors": ["https://registry.docker-cn.com"] } 阅读全文
posted @ 2020-06-06 11:25 微信-大数据从业者 阅读(408) 评论(0) 推荐(0) 编辑
摘要:Large states in our workload makes it infeasible to maintain everything in memory. Thus, we rely heavily on the RocksDB state backend to manage our gr 阅读全文
posted @ 2020-06-05 14:55 微信-大数据从业者 阅读(156) 评论(0) 推荐(0) 编辑
摘要:目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 阅读全文
posted @ 2020-06-05 14:26 微信-大数据从业者 阅读(714) 评论(0) 推荐(0) 编辑
摘要:An Intro to Stateful Stream Processing At a high level, we can consider state in stream processing as memory in operators that remembers information a 阅读全文
posted @ 2020-06-04 20:43 微信-大数据从业者 阅读(67) 评论(0) 推荐(0) 编辑
摘要:This episode of our Flink Friday Tip explores stateful stream processing and more precisely the different state backends available in Apache Flink. In 阅读全文
posted @ 2020-06-03 17:46 微信-大数据从业者 阅读(101) 评论(0) 推荐(0) 编辑
摘要:This blog post describes some configuration options that will help you to efficiently manage the memory size of the RocksDB state backend in Apache Fl 阅读全文
posted @ 2020-06-03 17:13 微信-大数据从业者 阅读(91) 评论(0) 推荐(0) 编辑
摘要:Ververica was founded by the original creators of Apache Flink®, and we’ve spent a long time solving problems in the stream processing space. In this 阅读全文
posted @ 2020-06-03 16:56 微信-大数据从业者 阅读(102) 评论(0) 推荐(0) 编辑
摘要:详细的死磕到底系列,可关注微信公众号:大数据从业者 https://mp.weixin.qq.com/s/saCIS5XCfTZisXlEeSHsuA 直接从github拉取flink-1.10.1版本代码git clone -b release-1.10.1 https://github.com/ 阅读全文
posted @ 2020-06-03 15:59 微信-大数据从业者 阅读(1404) 评论(1) 推荐(0) 编辑
摘要:解决方法如下: 本文远程连接的ubuntu下的数据库,原因是ubuntu系统的mysql不允许被远程连接操作 因此需要修改mysql配置文件 步骤: (1)cd /etc/mysql (2)vim my.cnf (3)将bind-address = 127.0.0.1修改为bind-address 阅读全文
posted @ 2020-05-25 19:36 微信-大数据从业者 阅读(68) 评论(0) 推荐(0) 编辑
摘要:mapper文件中写sql语句时提示Tag name expected,找到原因是因为xml不识别<号需要用特定转义符来表示<号。 <select id="selectHavingOrtherResultNotYetProcessed" resultMap="BaseResultMap" > sel 阅读全文
posted @ 2020-05-22 17:17 微信-大数据从业者 阅读(413) 评论(0) 推荐(0) 编辑
摘要:实际开发工作中经常用到json数据,那么就会有这样一个需求:在谷歌浏览器中访问URL地址返回的json数据能否按照json格式展现出来。 比如,在谷歌浏览器中访问:http://jsonview.com/example.json 展现效果如下: 那么安装了JsonView扩展程序后的展现效果如下: 阅读全文
posted @ 2020-05-13 17:52 微信-大数据从业者 阅读(179) 评论(0) 推荐(0) 编辑
摘要:Kafka Broker: Java Version We recommend latest java 1.8 with G1 collector ( which is default in new version). If you are using Java 1.7 and G1 collect 阅读全文
posted @ 2020-05-09 15:13 微信-大数据从业者 阅读(255) 评论(0) 推荐(0) 编辑
摘要:Introduction The producer sends data directly to the broker that is the leader for the partition without any intervening routing tier. Optimization Ap 阅读全文
posted @ 2020-05-09 15:10 微信-大数据从业者 阅读(263) 评论(0) 推荐(0) 编辑