Scala - 随笔分类 - lillcol

Saprk checkpoint、cache、persist的区别

摘要：持久化类型特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别，默认:MEMORY_AND_DISK可选：DISK_ONLY, 阅读全文

posted @ 2021-05-18 11:32 lillcol 阅读(352) 评论(0) 推荐(0)

ExceptionInChainedOperatorException：flink写hbase对于null数据导致数据导致出现异常

摘要：使用的flink版本：1.9.1 异常描述需求： 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。转换阅读全文

posted @ 2020-04-22 15:41 lillcol 阅读(2602) 评论(0) 推荐(0)

flink自定义窗口分配器周、月

摘要：关于分配器介绍内容来自 "官网" 窗口分配的概念窗口分配程序（Window Assigners）定义如何将元素分配给窗口。通过或``windowAll()for non keyed streams)``指定需要的WindowAssigner。 WindowAssigner负责将每个传入元素分配阅读全文

posted @ 2020-03-24 11:31 lillcol 阅读(2409) 评论(0) 推荐(0)

二叉树的遍历实现递归与非递归

摘要：本文实现了二叉树的深度遍历算法，分为递归与非递归递归的实现非常简单，基本上没啥难度非递归的实现需要根据遍历的顺序，将递归转换成循环代码中的二叉树如下递归递归的实现很简单，此处不做过多赘述非递归非递归的实现比起递归相对复杂些。核心是利用栈的特性，记录访问过的结点或输出的结点非递归的实阅读全文

posted @ 2020-03-09 11:24 lillcol 阅读(391) 评论(0) 推荐(0)

hbase-spark bulk load(二)

摘要：概述之前写过spark批量导入Hbase的案例： "Spark、BulkLoad Hbase、单列、多列" ，实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。最近看 "官网的文档" ,发现有两种方法： 73节的中的为我之前实现的方法 111节的为hbase spark中自带的方法阅读全文

posted @ 2020-01-14 14:53 lillcol 阅读(1307) 评论(0) 推荐(0)

Flink 1.9 FlinkKafkaProducer 使用 EXACTLY_ONCE 错误记录

摘要：使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义本以为本以为按照官网写一个就完事，但是却报错了代码遇到问题当指定为时，执行没有问题。当指定为时，执行报下面的错误：错误大意是：事务超时大于broker允许的最大值阅读全文

posted @ 2019-12-24 18:04 lillcol 阅读(5597) 评论(0) 推荐(0)

Spark、BulkLoad Hbase、单列、多列

摘要：背景之前的博客： "Spark：DataFrame写HFile （Hbase）一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。现在要用spark 2.3.2 阅读全文

posted @ 2019-09-18 15:36 lillcol 阅读(2355) 评论(0) 推荐(0)

maven+scala+idea 环境构建

摘要：组建信息组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8 阅读全文

posted @ 2019-08-13 14:42 lillcol 阅读(833) 评论(0) 推荐(0)

Spark 调优之ShuffleManager、Shuffle

摘要：Shuffle 概述影响Spark性能的大BOSS就是shuffle，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对 shuffle 过程进行调优。当然，影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等，甚至这部分阅读全文

posted @ 2019-07-26 15:06 lillcol 阅读(3387) 评论(0) 推荐(1)

Spark 调优之数据倾斜

摘要：什么是数据倾斜？ Spark 的计算抽象如下数据倾斜指的是：并行处理的数据集中，某一部分（如 Spark 或 Kafka 的一个 Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。如果数据倾斜不能解决，其他的优化手段再逆天都白搭，如同短板效应，任务完成阅读全文

posted @ 2019-07-25 18:51 lillcol 阅读(885) 评论(0) 推荐(0)

Spark 自定义函数（udf,udaf）

摘要：Spark 版本 2.3 文中测试数据（json）用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式使用范围不一样 package com.test.spark import org 阅读全文

posted @ 2019-07-22 22:52 lillcol 阅读(1291) 评论(0) 推荐(0)

Spark-内存管理调优

摘要：这篇文章主要是对官网内容学习过程的总结，大部分是原文，加上自己的学习笔记！！！ spark 2.0+内存模型调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存)； 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。默认情况下，J 阅读全文

posted @ 2019-07-04 00:13 lillcol 阅读(925) 评论(0) 推荐(1)

Spark源码系列:RDD repartition、coalesce 对比

摘要：RDD,重新分区，repartition,coalesce,Spark,大数据,源码阅读全文

posted @ 2018-11-01 17:14 lillcol 阅读(2668) 评论(0) 推荐(0)

Spark源码系列:DataFrame repartition、coalesce 对比

摘要：DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文

posted @ 2018-10-31 19:06 lillcol 阅读(10170) 评论(0) 推荐(2)

Scala:类和对象

摘要：Scala 学习笔记阅读全文

posted @ 2018-10-30 19:26 lillcol 阅读(438) 评论(0) 推荐(0)

Spark开发环境搭建（IDEA、Scala、SVN、SBT）

摘要：Spark 开发环境搭建，包括IDEA、Scala、Svn、SBT、Java等安装配置阅读全文

posted @ 2018-10-17 16:50 lillcol 阅读(2672) 评论(0) 推荐(0)

Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)

摘要：Spark处理后的结果数据resultDataFrame可以有多种存储介质，比较常见是存储为文件、关系型数据库，非关系行数据库。各种方式有各自的特点，对于海量数据而言，如果想要达到实时查询的目的，使用HBase作为存储的介质是非常不错的选择。现需求是：Spark对Hive、mysql数据源进行处阅读全文

posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)

Spark:DataFrame 写入文本文件

摘要：Spark：DataFrame写文件，追加，覆盖阅读全文

posted @ 2018-10-16 16:05 lillcol 阅读(26348) 评论(0) 推荐(0)

Spark:将DataFrame写入Mysql

摘要：Spark将DataFrame进行一些列处理后，需要将之写入mysql，下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件，这样方便后续的配置添加。 1 //配置文件示例： 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie 阅读全文

posted @ 2018-10-16 11:23 lillcol 阅读(10178) 评论(1) 推荐(0)

Spark:读取mysql数据作为DataFrame

摘要：Spark:读取mysql作为DataFrame进行数据分析阅读全文

posted @ 2018-10-16 10:12 lillcol 阅读(7681) 评论(0) 推荐(0)

lillcol

随笔分类 - Scala

公告