随笔分类 - Scala
1
Scala 相关文章
摘要:持久化类型 特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别,默认:MEMORY_AND_DISK可选:DISK_ONLY,
阅读全文
摘要:使用的flink版本:1.9.1 异常描述 需求: 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。 转换
阅读全文
摘要:关于分配器介绍内容来自 "官网" 窗口分配的概念 窗口分配程序(Window Assigners)定义如何将元素分配给窗口。 通过 或``windowAll()for non keyed streams)``指定需要的WindowAssigner。 WindowAssigner负责将每个传入元素分配
阅读全文
摘要:本文实现了二叉树的深度遍历算法,分为递归与非递归 递归的实现非常简单,基本上没啥难度 非递归的实现需要根据遍历的顺序,将递归转换成循环 代码中的二叉树如下 递归 递归的实现很简单,此处不做过多赘述 非递归 非递归的实现比起递归相对复杂些。 核心是利用栈的特性,记录访问过的结点或输出的结点 非递归的实
阅读全文
摘要:概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法
阅读全文
摘要:使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义 本以为本以为按照官网写一个就完事,但是却报错了 代码 遇到问题 当 指定为 时,执行没有问题。 当 指定为 时,执行报下面的错误: 错误大意是: 事务超时大于broker允许的最大值
阅读全文
摘要:背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2
阅读全文
摘要:组建信息 组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8
阅读全文
摘要:Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分
阅读全文
摘要:什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成
阅读全文
摘要:Spark 版本 2.3 文中测试数据(json) 用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式 使用范围不一样 package com.test.spark import org
阅读全文
摘要:这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型 调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存); 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。 默认情况下,J
阅读全文
摘要:RDD,重新分区,repartition,coalesce,Spark,大数据,源码
阅读全文
摘要:DataFrame、大数据、优化、Scala、coalesce、repartition
阅读全文
摘要:Spark 开发环境搭建,包括IDEA、Scala、Svn、SBT、Java等安装配置
阅读全文
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处
阅读全文
摘要:Spark:DataFrame写文件,追加,覆盖
阅读全文
摘要:Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie
阅读全文
摘要:Spark:读取mysql作为DataFrame进行数据分析
阅读全文
1

浙公网安备 33010602011771号