摘要:I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2020-01-09 11:31 微信-大数据从业者 阅读(166) 评论(0) 推荐(1) 编辑
摘要:https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文
posted @ 2019-02-15 16:20 微信-大数据从业者 阅读(574) 评论(0) 推荐(1) 编辑
摘要:http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾 由 Jay Kreps创建, 最终由 Ray Chiang修改于  阅读全文
posted @ 2019-01-23 10:07 微信-大数据从业者 阅读(635) 评论(0) 推荐(1) 编辑
摘要:Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka 编译环境准备 java maven gradle 编译 失败原因:gradle版本太高,降低到4.8 阅读全文
posted @ 2018-11-27 14:21 微信-大数据从业者 阅读(525) 评论(0) 推荐(0) 编辑
摘要:国内某大数据供应商 岗位要求1、本科以上学历,计算机及相关专业毕业。2、对大数据处理有强烈兴趣,掌握至少一种主流开源技术方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验,掌握Python/Sc 阅读全文
posted @ 2018-10-27 09:16 微信-大数据从业者 阅读(1203) 评论(0) 推荐(0) 编辑
摘要:本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。 采用单master,单node(可以多node),占用资源较少,方便在笔记本或学习环境快速部署,不适用于生产环境。 所需文件百度盘连接 链接:https://pan.baidu.com/s/1iQJpKZ9P 阅读全文
posted @ 2018-09-29 18:59 微信-大数据从业者 阅读(1527) 评论(1) 推荐(0) 编辑
摘要:前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
posted @ 2018-09-21 11:09 微信-大数据从业者 阅读(2377) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-06 18:25 微信-大数据从业者 阅读(1690) 评论(3) 推荐(0) 编辑
摘要:Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节... 阅读全文
posted @ 2015-11-27 16:01 微信-大数据从业者 阅读(657) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、Kafka的权限分类 1)、身份认证(Authentication):对client 与服务器的连接进行身份认证,brokers和zookeeper之间的连接进行Authentication(producer 和 consumer)、其他 brokers、tools与 brokers 阅读全文
posted @ 2020-09-19 10:43 微信-大数据从业者 阅读(4) 评论(0) 推荐(0) 编辑
摘要:while I add catalogs in sql-gateway-defaults.yaml: catalogs: name: catalog_hive type: hive hive-conf-dir: /opt/software/flink-sql-gateway-0.1-SNAPSHOT 阅读全文
posted @ 2020-08-27 16:52 微信-大数据从业者 阅读(150) 评论(0) 推荐(0) 编辑
摘要:最近有项目需求,flink写hive,暂不考虑性能要求。用hive jdbc简单封装了个sinkToHive,在开启kerberos的环境中,遇到如题的错误。 还有一个现象就是,首次hive操作是成功的,之后才是java.sql.SQLException: org.apache.thrift.tra 阅读全文
posted @ 2020-08-27 09:20 微信-大数据从业者 阅读(70) 评论(0) 推荐(0) 编辑
摘要:14 Jul 2020 Kostas Kloudas (@kkloudas) With the rise of stream processing and real-time analytics as a critical tool for modern businesses, an increas 阅读全文
posted @ 2020-08-18 17:47 微信-大数据从业者 阅读(23) 评论(0) 推荐(0) 编辑
摘要:7 3 I'm trying to save dataframe in table hive. In spark 1.6 it's work but after migration to 2.2.0 it doesn't work anymore. Here's the code: blocs .t 阅读全文
posted @ 2020-08-14 14:00 微信-大数据从业者 阅读(41) 评论(0) 推荐(0) 编辑
摘要:6 2 I am submitting a job to YARN (on spark 2.1.1 + kafka 0.10.2.1) which connects to a secured hbase cluster. This job, performs just fine when i am 阅读全文
posted @ 2020-08-12 13:51 微信-大数据从业者 阅读(64) 评论(0) 推荐(0) 编辑
摘要:详细报错日志 org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Unable to instantiate java compiler at org.apache. 阅读全文
posted @ 2020-08-06 18:20 微信-大数据从业者 阅读(239) 评论(0) 推荐(0) 编辑
摘要:在Linux系统中,我们经常用free命令来查看系统内存的使用状态。在一个RHEL6的系统上,free命令的显示内容大概是这样一个状态: 这里的默认显示单位是kb,我的服务器是128G内存,所以数字显得比较大。这个命令几乎是每一个使用过Linux的人必会的命令,但越是这样的命令,似乎真正明白的人越少 阅读全文
posted @ 2020-07-27 11:24 微信-大数据从业者 阅读(118) 评论(0) 推荐(0) 编辑
摘要:有些依赖不想使用maven管理或者使用maven下载不下来,而又不想在本地maven仓库手动上传依赖 那就手动导入个lib文件夹吧。 1、在src下创建lib目录,将jar包放入其中 2、右键lib文件夹,选择Add as Library即可 阅读全文
posted @ 2020-07-21 09:31 微信-大数据从业者 阅读(140) 评论(0) 推荐(0) 编辑
摘要:哪些原因可能会导致JAVA进程被kill呢? Java应用程序的问题:发生OOM导致进程Crash JVM自身故障:JVM或JDK自身的Bug导致进程Crash 被操作系统OOM-Killer 该如何去排查问题呢? Java应用程序的问题:发生OOM导致进程Crash 这种情况主要取决于研发代码质量 阅读全文
posted @ 2020-07-16 17:10 微信-大数据从业者 阅读(266) 评论(0) 推荐(0) 编辑
摘要:Java线程池概述 线程池技术在并发时经常会使用到,java中的线程池的使用是通过调用ThreadPoolExecutor来实现的。 ThreadPoolExecutor提供了四个构造函数,最后都会归结于下面这个构造方法: /** * Creates a new {@code ThreadPoolE 阅读全文
posted @ 2020-07-01 16:59 微信-大数据从业者 阅读(99) 评论(0) 推荐(0) 编辑
摘要:nmon开源性能监控工具,用于监控linux系统的资源消耗信息,并能把结果输出到文件中,然后通过nmon_analyser工具产生数据文件与图形化结果。 一、安装软件 下载nmon安装包:http://nmon.sourceforge.net/pmwiki.php?n=Site.Download选择 阅读全文
posted @ 2020-06-22 13:54 微信-大数据从业者 阅读(94) 评论(0) 推荐(0) 编辑
摘要:为什么要管理状态 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,我们想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重 阅读全文
posted @ 2020-06-20 09:56 微信-大数据从业者 阅读(400) 评论(0) 推荐(0) 编辑
摘要:修改/etc/docker/daemon.json { "registry-mirrors": ["https://registry.docker-cn.com"] } 阅读全文
posted @ 2020-06-06 11:25 微信-大数据从业者 阅读(342) 评论(0) 推荐(0) 编辑
摘要:Large states in our workload makes it infeasible to maintain everything in memory. Thus, we rely heavily on the RocksDB state backend to manage our gr 阅读全文
posted @ 2020-06-05 14:55 微信-大数据从业者 阅读(94) 评论(0) 推荐(0) 编辑
摘要:目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 阅读全文
posted @ 2020-06-05 14:26 微信-大数据从业者 阅读(386) 评论(0) 推荐(0) 编辑
摘要:An Intro to Stateful Stream Processing At a high level, we can consider state in stream processing as memory in operators that remembers information a 阅读全文
posted @ 2020-06-04 20:43 微信-大数据从业者 阅读(43) 评论(0) 推荐(0) 编辑
摘要:This episode of our Flink Friday Tip explores stateful stream processing and more precisely the different state backends available in Apache Flink. In 阅读全文
posted @ 2020-06-03 17:46 微信-大数据从业者 阅读(60) 评论(0) 推荐(0) 编辑
摘要:This blog post describes some configuration options that will help you to efficiently manage the memory size of the RocksDB state backend in Apache Fl 阅读全文
posted @ 2020-06-03 17:13 微信-大数据从业者 阅读(54) 评论(0) 推荐(0) 编辑
摘要:Ververica was founded by the original creators of Apache Flink®, and we’ve spent a long time solving problems in the stream processing space. In this 阅读全文
posted @ 2020-06-03 16:56 微信-大数据从业者 阅读(56) 评论(0) 推荐(0) 编辑
摘要:详细的死磕到底系列,可关注微信公众号:大数据从业者 https://mp.weixin.qq.com/s/saCIS5XCfTZisXlEeSHsuA 直接从github拉取flink-1.10.1版本代码git clone -b release-1.10.1 https://github.com/ 阅读全文
posted @ 2020-06-03 15:59 微信-大数据从业者 阅读(953) 评论(1) 推荐(0) 编辑
摘要:解决方法如下: 本文远程连接的ubuntu下的数据库,原因是ubuntu系统的mysql不允许被远程连接操作 因此需要修改mysql配置文件 步骤: (1)cd /etc/mysql (2)vim my.cnf (3)将bind-address = 127.0.0.1修改为bind-address 阅读全文
posted @ 2020-05-25 19:36 微信-大数据从业者 阅读(50) 评论(0) 推荐(0) 编辑
摘要:mapper文件中写sql语句时提示Tag name expected,找到原因是因为xml不识别<号需要用特定转义符来表示<号。 <select id="selectHavingOrtherResultNotYetProcessed" resultMap="BaseResultMap" > sel 阅读全文
posted @ 2020-05-22 17:17 微信-大数据从业者 阅读(263) 评论(0) 推荐(0) 编辑
摘要:实际开发工作中经常用到json数据,那么就会有这样一个需求:在谷歌浏览器中访问URL地址返回的json数据能否按照json格式展现出来。 比如,在谷歌浏览器中访问:http://jsonview.com/example.json 展现效果如下: 那么安装了JsonView扩展程序后的展现效果如下: 阅读全文
posted @ 2020-05-13 17:52 微信-大数据从业者 阅读(100) 评论(0) 推荐(0) 编辑
摘要:Kafka Broker: Java Version We recommend latest java 1.8 with G1 collector ( which is default in new version). If you are using Java 1.7 and G1 collect 阅读全文
posted @ 2020-05-09 15:13 微信-大数据从业者 阅读(156) 评论(0) 推荐(0) 编辑
摘要:Introduction The producer sends data directly to the broker that is the leader for the partition without any intervening routing tier. Optimization Ap 阅读全文
posted @ 2020-05-09 15:10 微信-大数据从业者 阅读(173) 评论(0) 推荐(0) 编辑
摘要:Introduction Knowing the performance of Kafka in general or on your hardware is an important part of capacity planning. Sizing can be hard to calculat 阅读全文
posted @ 2020-05-09 14:20 微信-大数据从业者 阅读(149) 评论(0) 推荐(0) 编辑
摘要:RFC3986文档规定,请求的Url中只允许包含英文字母(a-zA-Z)、数字(0-9)、-_.~4个特殊字符以及所有保留字符。 如果要使用这些特殊字符,并不是绝对不可以。Tomcat做了限制的同时,也提供了相关配置。给出的解决方案第一行requestTargetAllow,指定了允许的特殊字符,在 阅读全文
posted @ 2020-05-07 13:58 微信-大数据从业者 阅读(71) 评论(0) 推荐(0) 编辑
摘要:一、Springboot与Mybatis集成 1、思路 一是引入mybatis-starter使springboot与mybatis集成 二是完成连接数据库 (1)pom.xml 主要是引入mybatis-spring-boot-starter <!-- mybatis新增 begin--> <de 阅读全文
posted @ 2020-04-27 17:22 微信-大数据从业者 阅读(119) 评论(0) 推荐(0) 编辑
摘要:At LinkedIn, Kafka is the de-facto messaging platform that powers diverse sets of geographically-distributed applications at scale. Examples include o 阅读全文
posted @ 2020-04-27 15:52 微信-大数据从业者 阅读(85) 评论(0) 推荐(0) 编辑