BigData-Kafka - 随笔分类(第2页) - cctext

Spark2.3（四十三）：Spark Broadcast总结

摘要：为什么要使用广播(broadcast)变量？ Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。进一步解释：如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少task就有多少Dr 阅读全文

posted @ 2019-03-28 10:00 cctext 阅读(23872) 评论(0) 推荐(2)

Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）

摘要：本次此时是在SPARK2,3 structured streaming下测试，不过这种方案，在spark2.2 structured streaming下应该也可行（请自行测试）。以下是我测试结果：成功测试结果：准备工作：创建maven项目，并在pom.xml导入一下依赖配置：第一步：Load 阅读全文

posted @ 2019-03-27 21:23 cctext 阅读(3458) 评论(0) 推荐(0)

CDH下集成spark2.2.0与kafka（四十一）：在spark+kafka流处理程序中抛出错误java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V

摘要：错误信息原因分析其实这个在官方文档中有介绍。地址如下：https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs 方案一：错误信息中可以看出kafka的版本：Kafka ve 阅读全文

posted @ 2019-01-15 20:11 cctext 阅读(4901) 评论(1) 推荐(1)

Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志

摘要：背景：调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务，任务提交上去之后获取不到ApplicationId，更无法跟踪spark application的任务状态，无法kill application，更无法获取application的日志信息。因此，为了实阅读全文

posted @ 2019-01-09 22:20 cctext 阅读(15230) 评论(10) 推荐(0)

Spark2.2(三十九)：如何根据appName监控spark任务,当任务不存在则启动（任务存在当超过多久没有活动状态则kill，等待下次启动）

摘要：业务需求实现一个根据spark任务的appName来监控任务是否存在，及任务是否卡死的监控。 1）给定一个appName，根据appName从yarn application -list中验证任务是否存在，不存在则调用spark-submit.sh脚本来启动任务； 2）如果任务存在yarn app 阅读全文

posted @ 2019-01-08 22:52 cctext 阅读(2188) 评论(0) 推荐(1)

Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题（Memory issue with spark structured streaming）调研

摘要：在spark中《Memory usage of state in Spark Structured Streaming》讲解Spark内存分配情况，以及提到了HDFSBackedStateStoreProvider存储多个版本的影响；从stackoverflow上也可以看到别人遇到了structur 阅读全文

posted @ 2018-12-26 10:25 cctext 阅读(1650) 评论(0) 推荐(0)

Spark2.3(三十七)：Stream join Stream（res文件每天更新一份）

摘要：kafka测试数据生成： Stream join Stream测试代码：要求：使用spark structured streaming实时读取kafka中的数据，kafka中的数据包含字段int_id；kafka上数据需要关联资源信息（通过kafka的int_id与资源的int_id进行关联），同阅读全文

posted @ 2018-12-15 21:17 cctext 阅读(1955) 评论(0) 推荐(0)

Spark2.3(三十六)：根据appName验证某个app是否在运行

摘要：具体脚本 # export env variableif [ -f ~/.bash_profile ];then source ~/.bash_profilefisource /etc/profile 阅读全文

posted @ 2018-12-12 10:46 cctext 阅读(764) 评论(0) 推荐(0)

Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)

摘要：从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveListenerBus，其内部维护了多个AsyncEventQueue队列用于存储和分发SparkLis 阅读全文

posted @ 2018-12-11 23:23 cctext 阅读(1254) 评论(0) 推荐(1)

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计

摘要：WaterMark除了可以限定来迟数据范围，是否可以实现最近一小时统计？ WaterMark目的用来限定参数计算数据的范围：比如当前计算数据内max timestamp是12::00，waterMark限定数据分为是60 minutes，那么如果此时输入11:00之前的数据就会被舍弃不参与统计，视为阅读全文

posted @ 2018-12-02 19:21 cctext 阅读(3831) 评论(1) 推荐(0)

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）

摘要：背景：需要在spark2.2.0更新broadcast中的内容，网上也搜索了不少文章，都在讲解spark streaming中如何更新，但没有spark structured streaming更新broadcast的用法，于是就这几天进行了反复测试。经过了一下两个测试：：Spark Stream 阅读全文

posted @ 2018-11-19 18:31 cctext 阅读(3452) 评论(2) 推荐(0)

Spark2.2+ES6.4.2（三十二）：ES API之index的create/update/delete/open/close（创建index时设置setting，并创建index后根据avro模板动态设置index的mapping）

摘要：要想通过ES API对es的操作，必须获取到TransportClient对象，让后根据TransportClient获取到IndicesAdminClient对象后，方可以根据IndicesAdminClient对象提供的方法对ES的index进行操作：create index,update in 阅读全文

posted @ 2018-11-03 11:02 cctext 阅读(1473) 评论(0) 推荐(0)

Spark2.2+ES6.4.2（三十一）：Spark下生成测试数据，并在Spark环境下使用BulkProcessor将测试数据入库到ES

摘要：Spark下生成2000w测试数据（每条记录150列）使用spark生成大量数据过程中遇到问题，如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时，会特别慢，而且会抛出内存溢出over head错误。解决方案，一次生成的数据量不高于100w,多次阅读全文

posted @ 2018-10-31 18:33 cctext 阅读(1846) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三十）：使用flatMapGroupsWithState替换agg

摘要：flatMapGroupsWithState的出现解决了什么问题： flatMapGroupsWithState的出现在spark structured streaming原因(从spark.2.2.0开始才开始支持)： 1）可以实现agg函数； 2）就目前最新spark2.3.2版本来说在spar 阅读全文

posted @ 2018-10-24 18:34 cctext 阅读(1880) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据

摘要：推送avro格式数据到topic 源代码：https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/GeneratorDemo.java 使用spar 阅读全文

posted @ 2018-10-23 10:03 cctext 阅读(984) 评论(1) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十八）：kafka0.10.1 内置性能测试API用法示例

摘要：消费者测试：生产者测试：阅读全文

posted @ 2018-10-11 16:29 cctext 阅读(486) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十七）：kafka manager安装

摘要：一、kafka-manager简介为了简化开发者和服务工程师维护Kafka集群的工作，yahoo构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀，或者是分区在整个集群分布不均匀的的情况。它支持管理多阅读全文

posted @ 2018-09-11 10:59 cctext 阅读(1036) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十六）Structured Streaming：WARN clients.NetworkClient: Error while fetching metadata with correlation id 1 : {my-topic=LEADER_NOT_AVAILABLE}

摘要：问题描述：我之前使用kafka的命令删除了改topic： ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的（之气那测试过可以使用），发布消息到该t 阅读全文

posted @ 2018-08-29 18:35 cctext 阅读(9768) 评论(0) 推荐(1)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十五）Structured Streaming：同一个topic中包含一组数据的多个部分，按照key它们拼接为一条记录（以及遇到的问题）。

摘要：需求：目前kafka的topic上有一批数据，这些数据被分配到9个不同的partition中（就是发布时key:{m1,m2,m3,m4...m9},value:{records items}），mx(m1,m2...m9)这些数据的唯一键值：int_id+start_time，其中int_id和阅读全文

posted @ 2018-08-28 23:48 cctext 阅读(1140) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十四）Structured Streaming：Encoder

摘要：一般情况下我们在使用Dataset<Row>进行groupByKey时，你会发现这个方法最后一个参数需要一个encoder，那么这些encoder如何定义呢？一般数据类型示例： Class类型： Tuple类型：一般类型的Tuple Tuple包含类的：关于Encoder请参考《http:/ 阅读全文

posted @ 2018-08-28 23:23 cctext 阅读(780) 评论(0) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

随笔分类 - BigData-Kafka

公告