随笔分类 - BigData-Kafka
摘要:事情经过:之前该topic(M_A)已经存在,而且正常使用structured streaming消费了一段时间,后来删除了topic(M_A),重新创建了topic(M-A),程序使用新创建的topic(M-A)进行实时统计操作,使用structured streaming执行过程中抛出了一下异常
阅读全文
摘要:官网文档:《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据,一批次处理接收到的这一批次的数据;而
阅读全文
摘要:一、nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容。 具体请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群 具体请参
阅读全文
摘要:scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表: 内容导航: 1)首先,讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin
阅读全文
摘要:注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后重建。 域名 ip master 192.168.0.120 slave1 192.168.0.12
阅读全文
摘要:#文档元数据 一个文档不仅仅包含它的数据 ,也包含 元数据 —— 有关 文档的信息。 三个必须的元数据元素如下:## _index 文档在哪存放 ## _type 文档表示的对象类别 ## _id 文档唯一标识# 索引文档 #通过使用 index API ,文档可以被 索引 —— 存储和使文档可被搜
阅读全文
摘要:1.集群安装es ES内部索引原理: 《时间序列数据库的秘密(1)—— 介绍》 《时间序列数据库的秘密 (2)——索引》 《时间序列数据库的秘密(3)——加载和分布式计算》 1.1 环境 1.2 三台机器都安装jdk最新版本 1.3 三台机器都统一用户为spark 1.4 使用spark用户,在三台
阅读全文
摘要:Structured Streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink。 ForeachWriter实现: 以写入redis为例 package com.dx.streaming.producer; import
阅读全文
摘要:Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数。 UDF:是普通函数,输入一个或多个参数,返回一个值。比如:len(),isnull() UDAF:是聚合函数,输入一组值,返回一个聚合结果。
阅读全文
摘要:参考《在Kafka中使用Avro编码消息:Consumer篇》、《在Kafka中使用Avro编码消息:Producter篇》 在了解如何avro发送到kafka,再从kafka解析avro数据之前,我们可以先看下如何使用操作字符串: producer: package com.spark; impo
阅读全文
摘要:异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Ki
阅读全文
摘要:Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》配置好虚拟机,正在使
阅读全文
摘要:将arvo格式数据发送到kafka的topic 第一步:定制avro schema: 定义一个avro的schema文件userlog.avsc,内容如上。 该schema包含字段:ip:string,identity:string,userid:int,time:string,requestinf
阅读全文
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环
阅读全文
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环
阅读全文
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环
阅读全文
摘要:DataManager启动失败 启动过程中发现一个问题:slave1,slave2,slave3都是只启动了DataNode,而DataManager并没有启动: 这里一个错误原因可以从: slaves各自的nodemanager日志查看。 查看slave1虚拟机的/opt/hadoop-2.9.0
阅读全文
摘要:Spark以yarn方式运行时抛出异常: 解决方案: 主要是给节点分配的内存少,yarn kill了spark application。给yarn-site.xml增加配置: 重启hadoop。然后再重新执行./spark-shell --master yarn-client即可。 问题解决过程记录
阅读全文
摘要:启动之后发现slave上正常启动了DataNode,DataManager,但是过了几秒后发现DataNode被关闭 以slave1上错误日期为例查看错误信息: 找到错误信息: 解决方案 错误问题原因:多次格式化导致的。 1)在master执行sbin/stop-all.sh,关闭hadoop: 2
阅读全文
摘要:启动问题: 执行start-all.sh出现以下异常信息: 解决方案: Just added export JAVA_HOME=/usr/java/default in /root/.bashrc 之后尝试重新启动hadoop。 参考《https://blog.csdn.net/Abandon_Su
阅读全文

浙公网安备 33010602011771号