随笔分类 -  Scala

1
Scala 相关文章
摘要:持久化类型 特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别,默认:MEMORY_AND_DISK可选:DISK_ONLY, 阅读全文
posted @ 2021-05-18 11:32 lillcol 阅读(352) 评论(0) 推荐(0)
摘要:使用的flink版本:1.9.1 异常描述 需求: 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。 转换 阅读全文
posted @ 2020-04-22 15:41 lillcol 阅读(2602) 评论(0) 推荐(0)
摘要:关于分配器介绍内容来自 "官网" 窗口分配的概念 窗口分配程序(Window Assigners)定义如何将元素分配给窗口。 通过 或``windowAll()for non keyed streams)``指定需要的WindowAssigner。 WindowAssigner负责将每个传入元素分配 阅读全文
posted @ 2020-03-24 11:31 lillcol 阅读(2409) 评论(0) 推荐(0)
摘要:本文实现了二叉树的深度遍历算法,分为递归与非递归 递归的实现非常简单,基本上没啥难度 非递归的实现需要根据遍历的顺序,将递归转换成循环 代码中的二叉树如下 递归 递归的实现很简单,此处不做过多赘述 非递归 非递归的实现比起递归相对复杂些。 核心是利用栈的特性,记录访问过的结点或输出的结点 非递归的实 阅读全文
posted @ 2020-03-09 11:24 lillcol 阅读(391) 评论(0) 推荐(0)
摘要:概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法 阅读全文
posted @ 2020-01-14 14:53 lillcol 阅读(1307) 评论(0) 推荐(0)
摘要:使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义 本以为本以为按照官网写一个就完事,但是却报错了 代码 遇到问题 当 指定为 时,执行没有问题。 当 指定为 时,执行报下面的错误: 错误大意是: 事务超时大于broker允许的最大值 阅读全文
posted @ 2019-12-24 18:04 lillcol 阅读(5597) 评论(0) 推荐(0)
摘要:背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2 阅读全文
posted @ 2019-09-18 15:36 lillcol 阅读(2355) 评论(0) 推荐(0)
摘要:组建信息 组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8 阅读全文
posted @ 2019-08-13 14:42 lillcol 阅读(833) 评论(0) 推荐(0)
摘要:Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分 阅读全文
posted @ 2019-07-26 15:06 lillcol 阅读(3387) 评论(0) 推荐(1)
摘要:什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成 阅读全文
posted @ 2019-07-25 18:51 lillcol 阅读(885) 评论(0) 推荐(0)
摘要:Spark 版本 2.3 文中测试数据(json) 用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式 使用范围不一样 package com.test.spark import org 阅读全文
posted @ 2019-07-22 22:52 lillcol 阅读(1291) 评论(0) 推荐(0)
摘要:这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型 调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存); 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。 默认情况下,J 阅读全文
posted @ 2019-07-04 00:13 lillcol 阅读(925) 评论(0) 推荐(1)
摘要:RDD,重新分区,repartition,coalesce,Spark,大数据,源码 阅读全文
posted @ 2018-11-01 17:14 lillcol 阅读(2668) 评论(0) 推荐(0)
摘要:DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文
posted @ 2018-10-31 19:06 lillcol 阅读(10170) 评论(0) 推荐(2)
摘要:Scala 学习笔记 阅读全文
posted @ 2018-10-30 19:26 lillcol 阅读(438) 评论(0) 推荐(0)
摘要:Spark 开发环境搭建,包括IDEA、Scala、Svn、SBT、Java等安装配置 阅读全文
posted @ 2018-10-17 16:50 lillcol 阅读(2672) 评论(0) 推荐(0)
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)
摘要:Spark:DataFrame写文件,追加,覆盖 阅读全文
posted @ 2018-10-16 16:05 lillcol 阅读(26348) 评论(0) 推荐(0)
摘要:Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie 阅读全文
posted @ 2018-10-16 11:23 lillcol 阅读(10178) 评论(1) 推荐(0)
摘要:Spark:读取mysql作为DataFrame进行数据分析 阅读全文
posted @ 2018-10-16 10:12 lillcol 阅读(7681) 评论(0) 推荐(0)

1