BigData-Kafka - 随笔分类(第3页) - cctext

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十三）Structured Streaming遇到问题：Set(TopicName-0) are gone. Some data may have been missed

摘要：事情经过：之前该topic(M_A)已经存在，而且正常使用structured streaming消费了一段时间，后来删除了topic(M_A)，重新创建了topic（M-A），程序使用新创建的topic（M-A）进行实时统计操作，使用structured streaming执行过程中抛出了一下异常阅读全文

posted @ 2018-08-24 11:42 cctext 阅读(1054) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数

摘要：官网文档：《http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example》 Spark Streaming提供的提供的理念是一个批次处理一定时间段内的数据，一批次处理接收到的这一批次的数据；而阅读全文

posted @ 2018-08-09 23:28 cctext 阅读(947) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装

摘要：一、nifi基本配置 1. 修改各节点主机名，修改/etc/hosts文件内容。具体请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》 2. 安装zookeeper分布式集群具体请参阅读全文

posted @ 2018-08-06 18:19 cctext 阅读(952) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十）ES6.2.2 Client API

摘要：scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表：内容导航： 1）首先，讲解使用elasticsearch client api讲解如何创建(删除、修改、查询)index,type,mappin 阅读全文

posted @ 2018-07-23 20:38 cctext 阅读(679) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器

摘要：注： elasticsearch 版本6.2.2 1）集群模式，则每个节点都需要安装ik分词，安装插件完毕后需要重启服务，创建mapping前如果有机器未安装分词，则可能该索引可能为RED，需要删除后重建。域名 ip master 192.168.0.120 slave1 192.168.0.12 阅读全文

posted @ 2018-07-21 00:08 cctext 阅读(1279) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十八）ES6.2.2 增删改查基本操作

摘要：#文档元数据一个文档不仅仅包含它的数据，也包含元数据 —— 有关文档的信息。三个必须的元数据元素如下：## _index 文档在哪存放 ## _type 文档表示的对象类别 ## _id 文档唯一标识# 索引文档 #通过使用 index API ，文档可以被索引 —— 存储和使文档可被搜阅读全文

posted @ 2018-07-18 19:44 cctext 阅读(573) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十七）Elasticsearch-6.2.2集群安装，组件安装

摘要：1.集群安装es ES内部索引原理：《时间序列数据库的秘密（1）—— 介绍》《时间序列数据库的秘密 (2)——索引》《时间序列数据库的秘密（3）——加载和分布式计算》 1.1 环境 1.2 三台机器都安装jdk最新版本 1.3 三台机器都统一用户为spark 1.4 使用spark用户，在三台阅读全文

posted @ 2018-07-15 23:34 cctext 阅读(634) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法

摘要：Structured Streaming默认支持的sink类型有File sink，Foreach sink，Console sink，Memory sink。 ForeachWriter实现：以写入redis为例 package com.dx.streaming.producer; import 阅读全文

posted @ 2018-07-13 22:18 cctext 阅读(1160) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数

摘要：Spark Sql提供了丰富的内置函数让开发者来使用，但实际开发业务场景可能很复杂，内置函数不能够满足业务需求，因此spark sql提供了可扩展的内置函数。 UDF：是普通函数，输入一个或多个参数，返回一个值。比如：len(),isnull() UDAF：是聚合函数，输入一组值，返回一个聚合结果。阅读全文

posted @ 2018-07-11 14:35 cctext 阅读(831) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十四）定义一个avro schema使用comsumer发送avro字符流，producer接受avro字符流并解析

摘要：参考《在Kafka中使用Avro编码消息：Consumer篇》、《在Kafka中使用Avro编码消息：Producter篇》在了解如何avro发送到kafka，再从kafka解析avro数据之前，我们可以先看下如何使用操作字符串： producer: package com.spark; impo 阅读全文

posted @ 2018-07-09 23:59 cctext 阅读(1787) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）

摘要：异常问题：Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Ki 阅读全文

posted @ 2018-07-08 21:26 cctext 阅读(1582) 评论(2) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。

摘要：Centos7出现异常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》配置好虚拟机，正在使阅读全文

posted @ 2018-07-08 16:54 cctext 阅读(466) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据

摘要：将arvo格式数据发送到kafka的topic 第一步：定制avro schema: 定义一个avro的schema文件userlog.avsc，内容如上。该schema包含字段：ip:string,identity:string,userid:int,time:string,requestinf 阅读全文

posted @ 2018-07-03 23:32 cctext 阅读(1624) 评论(0) 推荐(1)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-07-01 17:19 cctext 阅读(1759) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-06-30 22:22 cctext 阅读(4563) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-06-30 20:51 cctext 阅读(1370) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（七）针对hadoop2.9.0启动DataManager失败问题

摘要：DataManager启动失败启动过程中发现一个问题：slave1,slave2,slave3都是只启动了DataNode，而DataManager并没有启动：这里一个错误原因可以从： slaves各自的nodemanager日志查看。查看slave1虚拟机的/opt/hadoop-2.9.0 阅读全文

posted @ 2018-06-30 16:31 cctext 阅读(981) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（六）针对spark2.2.1以yarn方式启动spark-shell抛出异常：ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful

摘要：Spark以yarn方式运行时抛出异常：解决方案：主要是给节点分配的内存少，yarn kill了spark application。给yarn-site.xml增加配置：重启hadoop。然后再重新执行./spark-shell --master yarn-client即可。问题解决过程记录阅读全文

posted @ 2018-06-30 16:07 cctext 阅读(5318) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（五）针对hadoop2.9.0启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

摘要：启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭以slave1上错误日期为例查看错误信息：找到错误信息：解决方案错误问题原因：多次格式化导致的。 1）在master执行sbin/stop-all.sh，关闭hadoop: 2 阅读全文

posted @ 2018-06-30 16:01 cctext 阅读(1132) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（四）针对hadoop2.9.0启动执行start-all.sh出现异常：failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.worker.Worker

摘要：启动问题：执行start-all.sh出现以下异常信息：解决方案： Just added export JAVA_HOME=/usr/java/default in /root/.bashrc 之后尝试重新启动hadoop。参考《https://blog.csdn.net/Abandon_Su 阅读全文

posted @ 2018-06-30 15:56 cctext 阅读(4618) 评论(1) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

随笔分类 - BigData-Kafka

公告