随笔分类 -  Spark

Spark 相关文章
摘要:spark的数据本地性(data locality) Spark其中一个特性就是数据本地性,简单的说就是“移动数据不如移动计算”。 因为数据在网络传输中会有不小的I/O消耗,并且传输距离越长消耗越大。 所以,数据本地性可以理解为数据传输距离,而我们的目的就是避免数据在网络中传输或尽量减少传输的距离。 阅读全文
posted @ 2021-06-01 18:15 lillcol 阅读(1841) 评论(0) 推荐(0)
摘要:数据处理的过程 数据处理的过程一般如下: 数据质量管理(DATA Quality Managenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。 通过改善和提高组织的管理水平是的数据质量进一步提升。 数据质量管理是一个循环管理的过程,其最终目标是通过可 阅读全文
posted @ 2021-06-01 16:03 lillcol 阅读(1951) 评论(0) 推荐(0)
摘要:持久化类型 特点 cache 默认存储级别为: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以自定义存储级别,默认:MEMORY_AND_DISK可选:DISK_ONLY, 阅读全文
posted @ 2021-05-18 11:32 lillcol 阅读(352) 评论(0) 推荐(0)
摘要:1. Hbase读写优化 写: 批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化(压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL) SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应 阅读全文
posted @ 2021-05-12 16:56 lillcol 阅读(684) 评论(0) 推荐(0)
摘要:flink 触发器 触发器确定窗口(由窗口分配程序形成)何时准备由窗口函数处理。每个WindowAssigner都带有一个默认触发器。 如果默认触发器不适合需求,我们就需要自定义触发器。 主要方法 触发器接口有五种方法,允许触发器对不同的事件作出反应 1. 添加到每个窗口的元素都会调用此方法。 2. 阅读全文
posted @ 2020-02-13 12:03 lillcol 阅读(9842) 评论(1) 推荐(1)
摘要:概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法 阅读全文
posted @ 2020-01-14 14:53 lillcol 阅读(1307) 评论(0) 推荐(0)
摘要:背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2 阅读全文
posted @ 2019-09-18 15:36 lillcol 阅读(2355) 评论(0) 推荐(0)
摘要:组建信息 组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8 阅读全文
posted @ 2019-08-13 14:42 lillcol 阅读(833) 评论(0) 推荐(0)
摘要:Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分 阅读全文
posted @ 2019-07-26 15:06 lillcol 阅读(3387) 评论(0) 推荐(1)
摘要:什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成 阅读全文
posted @ 2019-07-25 18:51 lillcol 阅读(885) 评论(0) 推荐(0)
摘要:SparkContext 是什么? 1. 驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN 或Mesos)进行协调。 2. 使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext。 3. 使 阅读全文
posted @ 2019-07-23 17:59 lillcol 阅读(11058) 评论(1) 推荐(0)
摘要:Spark 版本 2.3 文中测试数据(json) 用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式 使用范围不一样 package com.test.spark import org 阅读全文
posted @ 2019-07-22 22:52 lillcol 阅读(1291) 评论(0) 推荐(0)
摘要:读 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} / @author Administrator 2019/7/22 17:09 / object TestReadD 阅读全文
posted @ 2019-07-22 22:51 lillcol 阅读(530) 评论(0) 推荐(0)
摘要:spark的runtime "参考:Spark:Yarn cluster和Yarn client区别与联系" 浪尖分享资料 standalone Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式。 该集群模式的架构设计与HDFS和Yarn大相径庭,都是由一个主节点多个从节点组成。 阅读全文
posted @ 2019-07-09 18:05 lillcol 阅读(5310) 评论(1) 推荐(0)
摘要:这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型 调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存); 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。 默认情况下,J 阅读全文
posted @ 2019-07-04 00:13 lillcol 阅读(925) 评论(0) 推荐(1)
摘要:Spark、调优、参数总结 阅读全文
posted @ 2019-01-05 10:26 lillcol 阅读(1290) 评论(0) 推荐(0)
摘要:RDD,重新分区,repartition,coalesce,Spark,大数据,源码 阅读全文
posted @ 2018-11-01 17:14 lillcol 阅读(2668) 评论(0) 推荐(0)
摘要:DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文
posted @ 2018-10-31 19:06 lillcol 阅读(10169) 评论(0) 推荐(2)
摘要:Spark 开发环境搭建,包括IDEA、Scala、Svn、SBT、Java等安装配置 阅读全文
posted @ 2018-10-17 16:50 lillcol 阅读(2672) 评论(0) 推荐(0)
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)