随笔分类 -  BigData-Kafka

摘要:事情经过:之前该topic(M_A)已经存在,而且正常使用structured streaming消费了一段时间,后来删除了topic(M_A),重新创建了topic(M-A),程序使用新创建的topic(M-A)进行实时统计操作,使用structured streaming执行过程中抛出了一下异常 阅读全文
posted @ 2018-08-24 11:42 cctext 阅读(1054) 评论(0) 推荐(0)
摘要:官网文档:《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据,一批次处理接收到的这一批次的数据;而 阅读全文
posted @ 2018-08-09 23:28 cctext 阅读(947) 评论(0) 推荐(0)
摘要:一、nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容。 具体请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群 具体请参 阅读全文
posted @ 2018-08-06 18:19 cctext 阅读(952) 评论(0) 推荐(0)
摘要:scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表: 内容导航: 1)首先,讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin 阅读全文
posted @ 2018-07-23 20:38 cctext 阅读(679) 评论(0) 推荐(0)
摘要:注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后重建。 域名 ip master 192.168.0.120 slave1 192.168.0.12 阅读全文
posted @ 2018-07-21 00:08 cctext 阅读(1279) 评论(0) 推荐(0)
摘要:#文档元数据 一个文档不仅仅包含它的数据 ,也包含 元数据 —— 有关 文档的信息。 三个必须的元数据元素如下:## _index 文档在哪存放 ## _type 文档表示的对象类别 ## _id 文档唯一标识# 索引文档 #通过使用 index API ,文档可以被 索引 —— 存储和使文档可被搜 阅读全文
posted @ 2018-07-18 19:44 cctext 阅读(573) 评论(0) 推荐(0)
摘要:1.集群安装es ES内部索引原理: 《时间序列数据库的秘密(1)—— 介绍》 《时间序列数据库的秘密 (2)——索引》 《时间序列数据库的秘密(3)——加载和分布式计算》 1.1 环境 1.2 三台机器都安装jdk最新版本 1.3 三台机器都统一用户为spark 1.4 使用spark用户,在三台 阅读全文
posted @ 2018-07-15 23:34 cctext 阅读(634) 评论(0) 推荐(0)
摘要:Structured Streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink。 ForeachWriter实现: 以写入redis为例 package com.dx.streaming.producer; import 阅读全文
posted @ 2018-07-13 22:18 cctext 阅读(1160) 评论(0) 推荐(0)
摘要:Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数。 UDF:是普通函数,输入一个或多个参数,返回一个值。比如:len(),isnull() UDAF:是聚合函数,输入一组值,返回一个聚合结果。 阅读全文
posted @ 2018-07-11 14:35 cctext 阅读(831) 评论(0) 推荐(0)
摘要:参考《在Kafka中使用Avro编码消息:Consumer篇》、《在Kafka中使用Avro编码消息:Producter篇》 在了解如何avro发送到kafka,再从kafka解析avro数据之前,我们可以先看下如何使用操作字符串: producer: package com.spark; impo 阅读全文
posted @ 2018-07-09 23:59 cctext 阅读(1787) 评论(0) 推荐(0)
摘要:异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Ki 阅读全文
posted @ 2018-07-08 21:26 cctext 阅读(1582) 评论(2) 推荐(0)
摘要:Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》配置好虚拟机,正在使 阅读全文
posted @ 2018-07-08 16:54 cctext 阅读(466) 评论(0) 推荐(0)
摘要:将arvo格式数据发送到kafka的topic 第一步:定制avro schema: 定义一个avro的schema文件userlog.avsc,内容如上。 该schema包含字段:ip:string,identity:string,userid:int,time:string,requestinf 阅读全文
posted @ 2018-07-03 23:32 cctext 阅读(1624) 评论(0) 推荐(1)
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环 阅读全文
posted @ 2018-07-01 17:19 cctext 阅读(1759) 评论(0) 推荐(0)
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环 阅读全文
posted @ 2018-06-30 22:22 cctext 阅读(4563) 评论(0) 推荐(0)
摘要:如何搭建配置centos虚拟机请参考《Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。》 如何安装hadoop2.9.0请参考《Kafka:ZK+Kafka+Spark Streaming集群环 阅读全文
posted @ 2018-06-30 20:51 cctext 阅读(1370) 评论(0) 推荐(0)
摘要:DataManager启动失败 启动过程中发现一个问题:slave1,slave2,slave3都是只启动了DataNode,而DataManager并没有启动: 这里一个错误原因可以从: slaves各自的nodemanager日志查看。 查看slave1虚拟机的/opt/hadoop-2.9.0 阅读全文
posted @ 2018-06-30 16:31 cctext 阅读(981) 评论(0) 推荐(0)
摘要:Spark以yarn方式运行时抛出异常: 解决方案: 主要是给节点分配的内存少,yarn kill了spark application。给yarn-site.xml增加配置: 重启hadoop。然后再重新执行./spark-shell --master yarn-client即可。 问题解决过程记录 阅读全文
posted @ 2018-06-30 16:07 cctext 阅读(5318) 评论(0) 推荐(0)
摘要:启动之后发现slave上正常启动了DataNode,DataManager,但是过了几秒后发现DataNode被关闭 以slave1上错误日期为例查看错误信息: 找到错误信息: 解决方案 错误问题原因:多次格式化导致的。 1)在master执行sbin/stop-all.sh,关闭hadoop: 2 阅读全文
posted @ 2018-06-30 16:01 cctext 阅读(1132) 评论(0) 推荐(0)
摘要:启动问题: 执行start-all.sh出现以下异常信息: 解决方案: Just added export JAVA_HOME=/usr/java/default in /root/.bashrc 之后尝试重新启动hadoop。 参考《https://blog.csdn.net/Abandon_Su 阅读全文
posted @ 2018-06-30 15:56 cctext 阅读(4618) 评论(1) 推荐(0)