随笔分类 -  BigData-Kafka

摘要:为什么要使用广播(broadcast)变量? Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。进一步解释: 如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少task就有多少Dr 阅读全文
posted @ 2019-03-28 10:00 cctext 阅读(23872) 评论(0) 推荐(2)
摘要:本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试)。以下是我测试结果: 成功测试结果: 准备工作:创建maven项目,并在pom.xml导入一下依赖配置: 第一步:Load 阅读全文
posted @ 2019-03-27 21:23 cctext 阅读(3458) 评论(0) 推荐(0)
摘要:错误信息 原因分析 其实这个在官方文档中有介绍。地址如下:https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs 方案一:错误信息中可以看出kafka的版本:Kafka ve 阅读全文
posted @ 2019-01-15 20:11 cctext 阅读(4901) 评论(1) 推荐(1)
摘要:背景: 调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务,任务提交上去之后获取不到ApplicationId,更无法跟踪spark application的任务状态,无法kill application,更无法获取application的日志信息。因此,为了实 阅读全文
posted @ 2019-01-09 22:20 cctext 阅读(15230) 评论(10) 推荐(0)
摘要:业务需求 实现一个根据spark任务的appName来监控任务是否存在,及任务是否卡死的监控。 1)给定一个appName,根据appName从yarn application -list中验证任务是否存在,不存在则调用spark-submit.sh脚本来启动任务; 2)如果任务存在yarn app 阅读全文
posted @ 2019-01-08 22:52 cctext 阅读(2188) 评论(0) 推荐(1)
摘要:在spark中《Memory usage of state in Spark Structured Streaming》讲解Spark内存分配情况,以及提到了HDFSBackedStateStoreProvider存储多个版本的影响;从stackoverflow上也可以看到别人遇到了structur 阅读全文
posted @ 2018-12-26 10:25 cctext 阅读(1650) 评论(0) 推荐(0)
摘要:kafka测试数据生成: Stream join Stream测试代码: 要求:使用spark structured streaming实时读取kafka中的数据,kafka中的数据包含字段int_id;kafka上数据需要关联资源信息(通过kafka的int_id与资源的int_id进行关联),同 阅读全文
posted @ 2018-12-15 21:17 cctext 阅读(1955) 评论(0) 推荐(0)
摘要:具体脚本 # export env variableif [ -f ~/.bash_profile ];then source ~/.bash_profilefisource /etc/profile 阅读全文
posted @ 2018-12-12 10:46 cctext 阅读(764) 评论(0) 推荐(0)
摘要:从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveListenerBus,其内部维护了多个AsyncEventQueue队列用于存储和分发SparkLis 阅读全文
posted @ 2018-12-11 23:23 cctext 阅读(1254) 评论(0) 推荐(1)
摘要:WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMark限定数据分为是60 minutes,那么如果此时输入11:00之前的数据就会被舍弃不参与统计,视为 阅读全文
posted @ 2018-12-02 19:21 cctext 阅读(3831) 评论(1) 推荐(0)
摘要:背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新broadcast的用法,于是就这几天进行了反复测试。经过了一下两个测试::Spark Stream 阅读全文
posted @ 2018-11-19 18:31 cctext 阅读(3452) 评论(2) 推荐(0)
摘要:要想通过ES API对es的操作,必须获取到TransportClient对象,让后根据TransportClient获取到IndicesAdminClient对象后,方可以根据IndicesAdminClient对象提供的方法对ES的index进行操作:create index,update in 阅读全文
posted @ 2018-11-03 11:02 cctext 阅读(1473) 评论(0) 推荐(0)
摘要:Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时,会特别慢,而且会抛出内存溢出over head错误。解决方案,一次生成的数据量不高于100w,多次 阅读全文
posted @ 2018-10-31 18:33 cctext 阅读(1846) 评论(0) 推荐(0)
摘要:flatMapGroupsWithState的出现解决了什么问题: flatMapGroupsWithState的出现在spark structured streaming原因(从spark.2.2.0开始才开始支持): 1)可以实现agg函数; 2)就目前最新spark2.3.2版本来说在spar 阅读全文
posted @ 2018-10-24 18:34 cctext 阅读(1880) 评论(0) 推荐(0)
摘要:推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/GeneratorDemo.java 使用spar 阅读全文
posted @ 2018-10-23 10:03 cctext 阅读(984) 评论(1) 推荐(0)
摘要:消费者测试: 生产者测试: 阅读全文
posted @ 2018-10-11 16:29 cctext 阅读(486) 评论(0) 推荐(0)
摘要:一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多 阅读全文
posted @ 2018-09-11 10:59 cctext 阅读(1036) 评论(0) 推荐(0)
摘要:问题描述: 我之前使用kafka的命令删除了改topic: ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的(之气那测试过可以使用),发布消息到该t 阅读全文
posted @ 2018-08-29 18:35 cctext 阅读(9768) 评论(0) 推荐(1)
摘要:需求: 目前kafka的topic上有一批数据,这些数据被分配到9个不同的partition中(就是发布时key:{m1,m2,m3,m4...m9},value:{records items}),mx(m1,m2...m9)这些数据的唯一键值:int_id+start_time,其中int_id和 阅读全文
posted @ 2018-08-28 23:48 cctext 阅读(1140) 评论(0) 推荐(0)
摘要:一般情况下我们在使用Dataset<Row>进行groupByKey时,你会发现这个方法最后一个参数需要一个encoder,那么这些encoder如何定义呢? 一般数据类型 示例: Class类型: Tuple类型: 一般类型的Tuple Tuple包含类的: 关于Encoder请参考《http:/ 阅读全文
posted @ 2018-08-28 23:23 cctext 阅读(780) 评论(0) 推荐(0)