随笔分类 - BigData-Kafka
摘要:为什么要使用广播(broadcast)变量? Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。进一步解释: 如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少task就有多少Dr
阅读全文
摘要:本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试)。以下是我测试结果: 成功测试结果: 准备工作:创建maven项目,并在pom.xml导入一下依赖配置: 第一步:Load
阅读全文
摘要:错误信息 原因分析 其实这个在官方文档中有介绍。地址如下:https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs 方案一:错误信息中可以看出kafka的版本:Kafka ve
阅读全文
摘要:背景: 调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务,任务提交上去之后获取不到ApplicationId,更无法跟踪spark application的任务状态,无法kill application,更无法获取application的日志信息。因此,为了实
阅读全文
摘要:业务需求 实现一个根据spark任务的appName来监控任务是否存在,及任务是否卡死的监控。 1)给定一个appName,根据appName从yarn application -list中验证任务是否存在,不存在则调用spark-submit.sh脚本来启动任务; 2)如果任务存在yarn app
阅读全文
摘要:在spark中《Memory usage of state in Spark Structured Streaming》讲解Spark内存分配情况,以及提到了HDFSBackedStateStoreProvider存储多个版本的影响;从stackoverflow上也可以看到别人遇到了structur
阅读全文
摘要:kafka测试数据生成: Stream join Stream测试代码: 要求:使用spark structured streaming实时读取kafka中的数据,kafka中的数据包含字段int_id;kafka上数据需要关联资源信息(通过kafka的int_id与资源的int_id进行关联),同
阅读全文
摘要:具体脚本 # export env variableif [ -f ~/.bash_profile ];then source ~/.bash_profilefisource /etc/profile
阅读全文
摘要:从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveListenerBus,其内部维护了多个AsyncEventQueue队列用于存储和分发SparkLis
阅读全文
摘要:WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMark限定数据分为是60 minutes,那么如果此时输入11:00之前的数据就会被舍弃不参与统计,视为
阅读全文
摘要:背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新broadcast的用法,于是就这几天进行了反复测试。经过了一下两个测试::Spark Stream
阅读全文
摘要:要想通过ES API对es的操作,必须获取到TransportClient对象,让后根据TransportClient获取到IndicesAdminClient对象后,方可以根据IndicesAdminClient对象提供的方法对ES的index进行操作:create index,update in
阅读全文
摘要:Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时,会特别慢,而且会抛出内存溢出over head错误。解决方案,一次生成的数据量不高于100w,多次
阅读全文
摘要:flatMapGroupsWithState的出现解决了什么问题: flatMapGroupsWithState的出现在spark structured streaming原因(从spark.2.2.0开始才开始支持): 1)可以实现agg函数; 2)就目前最新spark2.3.2版本来说在spar
阅读全文
摘要:推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/GeneratorDemo.java 使用spar
阅读全文
摘要:消费者测试: 生产者测试:
阅读全文
摘要:一、kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多
阅读全文
摘要:问题描述: 我之前使用kafka的命令删除了改topic: ./kafka-topics.sh --delete --zookeeper 【zookeeper server】 --topic 【topic name】 kafka是启用了自动创建topic功能的(之气那测试过可以使用),发布消息到该t
阅读全文
摘要:需求: 目前kafka的topic上有一批数据,这些数据被分配到9个不同的partition中(就是发布时key:{m1,m2,m3,m4...m9},value:{records items}),mx(m1,m2...m9)这些数据的唯一键值:int_id+start_time,其中int_id和
阅读全文
摘要:一般情况下我们在使用Dataset<Row>进行groupByKey时,你会发现这个方法最后一个参数需要一个encoder,那么这些encoder如何定义呢? 一般数据类型 示例: Class类型: Tuple类型: 一般类型的Tuple Tuple包含类的: 关于Encoder请参考《http:/
阅读全文

浙公网安备 33010602011771号