上一页 1 2 3 4 5 6 7 8 9 10 ··· 33 下一页
摘要: 在spark中《Memory usage of state in Spark Structured Streaming》讲解Spark内存分配情况,以及提到了HDFSBackedStateStoreProvider存储多个版本的影响;从stackoverflow上也可以看到别人遇到了structur 阅读全文
posted @ 2018-12-26 10:25 cctext 阅读(1605) 评论(0) 推荐(0) 编辑
摘要: kafka测试数据生成: Stream join Stream测试代码: 要求:使用spark structured streaming实时读取kafka中的数据,kafka中的数据包含字段int_id;kafka上数据需要关联资源信息(通过kafka的int_id与资源的int_id进行关联),同 阅读全文
posted @ 2018-12-15 21:17 cctext 阅读(1898) 评论(0) 推荐(0) 编辑
摘要: 具体脚本 # export env variableif [ -f ~/.bash_profile ];then source ~/.bash_profilefisource /etc/profile 阅读全文
posted @ 2018-12-12 10:46 cctext 阅读(743) 评论(0) 推荐(0) 编辑
摘要: 从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveListenerBus,其内部维护了多个AsyncEventQueue队列用于存储和分发SparkLis 阅读全文
posted @ 2018-12-11 23:23 cctext 阅读(1209) 评论(0) 推荐(1) 编辑
摘要: 示例JAVA代码: MyEntity.java import java.io.Serializable; public class MyEntity implements Serializable{ private String id; private String name; private St 阅读全文
posted @ 2018-12-05 17:33 cctext 阅读(4603) 评论(0) 推荐(0) 编辑
摘要: WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMark限定数据分为是60 minutes,那么如果此时输入11:00之前的数据就会被舍弃不参与统计,视为 阅读全文
posted @ 2018-12-02 19:21 cctext 阅读(3743) 评论(1) 推荐(0) 编辑
摘要: 背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新broadcast的用法,于是就这几天进行了反复测试。经过了一下两个测试::Spark Stream 阅读全文
posted @ 2018-11-19 18:31 cctext 阅读(3377) 评论(2) 推荐(0) 编辑
摘要: 一开始配置的ifcfg-ens33 问题状态: 执行 service network restart 出现以下错误 Restarting network (via systemctl): Job for network.service failed. See 'systemctl status ne 阅读全文
posted @ 2018-11-17 23:15 cctext 阅读(4354) 评论(0) 推荐(0) 编辑
摘要: 安装环境三台centos7 vmw: 1)[各节点]使用本地yum repo进行安装时: 需要在各个节点(192.168.0.141,192.168.0.142,192.168.0.143)上设置本地repo(/etc/yum.repos.d/) 2)[主节点]需要安装httpd,并在/var/ww 阅读全文
posted @ 2018-11-15 10:36 cctext 阅读(2932) 评论(0) 推荐(0) 编辑
摘要: 产生问题原因: 环境hadoop2,cdh5创建 使用hadoop fs -mdkir /use/xxx创建文件路径时,出现权限问题 前提我们已经把当前用户zhangsan和root放到/etc/suders中。 创建目录/user/zhangsan抛出异常: 解决步骤: 1.查看/user目录的用 阅读全文
posted @ 2018-11-13 17:03 cctext 阅读(3456) 评论(0) 推荐(0) 编辑
摘要: 要想通过ES API对es的操作,必须获取到TransportClient对象,让后根据TransportClient获取到IndicesAdminClient对象后,方可以根据IndicesAdminClient对象提供的方法对ES的index进行操作:create index,update in 阅读全文
posted @ 2018-11-03 11:02 cctext 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时,会特别慢,而且会抛出内存溢出over head错误。解决方案,一次生成的数据量不高于100w,多次 阅读全文
posted @ 2018-10-31 18:33 cctext 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 几种给Dataset增加列的方式 首先创建一个DF对象: 第一种方式:使用lit()增加常量(固定值) 可以是字符串类型,整型 注意: lit()是spark自带的函数,需要import org.apache.spark.sql.functions Since 1.3.0def lit(litera 阅读全文
posted @ 2018-10-29 18:54 cctext 阅读(18160) 评论(0) 推荐(0) 编辑
摘要: flatMapGroupsWithState的出现解决了什么问题: flatMapGroupsWithState的出现在spark structured streaming原因(从spark.2.2.0开始才开始支持): 1)可以实现agg函数; 2)就目前最新spark2.3.2版本来说在spar 阅读全文
posted @ 2018-10-24 18:34 cctext 阅读(1852) 评论(0) 推荐(0) 编辑
摘要: 推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/GeneratorDemo.java 使用spar 阅读全文
posted @ 2018-10-23 10:03 cctext 阅读(964) 评论(1) 推荐(0) 编辑
摘要: 为什么要使用二叉树? 二叉树结合了有序数组(假设数组中所有数据项都有序的排列,用二分查找法可以在有序数组中快速地找到特定的值)和链表(链表的插入和删除操作很快)这两种数据结构。在树中查找数据项的速度和有序数组查找一样快,并且插入数据项和删除数据项的速度也和链一样快。 二叉树解决了在有序数据中插入数据 阅读全文
posted @ 2018-10-22 14:57 cctext 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 需求: 由于一个大文件,在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs,然而在spark2.2下如何加载某个目录下多个文件呢? 测试结果: 阅读全文
posted @ 2018-10-19 15:57 cctext 阅读(11534) 评论(0) 推荐(0) 编辑
摘要: java大文件拆分工具(过滤掉表头) 阅读全文
posted @ 2018-10-18 09:55 cctext 阅读(1988) 评论(0) 推荐(0) 编辑
摘要: 在日常 web 开发中发生了异常,往往需要通过一个统一的 异常处理,来保证客户端能够收到友好的提示。本文将会介绍 Spring Boot 中的 全局统一异常处理。 Springboot的全局异常查是通过两个注解@ControllerAdvice和@ExceptionHandler来实现的。只有代码出 阅读全文
posted @ 2018-10-15 23:02 cctext 阅读(4380) 评论(0) 推荐(1) 编辑
摘要: 方案一(使用ForeachWriter Sink方式): 方案二(ds.writeStream().partitionBy("field")): java代码: 更多方式,请参考《在Spark结构化流readStream、writeStream 输入输出,及过程ETL》 阅读全文
posted @ 2018-10-12 10:53 cctext 阅读(1826) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 33 下一页