随笔分类 - Spark学习
摘要:用户自定义函数 UDF函数 在操作关系型数据库时,Spark支持大部分常用SQL函数,而有些函数Spark官方并没有支持,需要根据业务自行创建。这些函数成为用户自定义函数(user defined function, UDF)。 接受一个参数,返回一个结果。即一进一出的函数。 实例 实现一个UDF,
阅读全文
摘要:Spark读写不同个数数据 SPark读取数据 读取文本文件格式 val inputTextFile = sc.textFile(path) 可以通过/*.txt读取多个文件。 读取JSON文件格式 和文本文件读取函数一样 val inputJsonFIle = sc.textFIle("path/
阅读全文
摘要:什么是Shuffle 在RDD中,将每个相同key的value聚合起来。相同key的value可能在不同partition,也可能在不同节点。因此shuffle操作会影响多个节点。 常见的shuffle操作有:groupByKey(),reduceBykey()等。 Shuffle Write和Re
阅读全文
摘要:背景 原本自己都是使用笔记本的虚拟机来搭建大数据环境,调试代码,运行项目。但自己的笔记本是13寸的,屏幕很小,经常由于要打开多个终端,同时辅以网页,造成小小的屏幕里有很多窗口,体验极差。 有想过通过外接大显示屏来解决,但显示屏固定连接了自己的游戏本。等于宿舍里操作游戏本,实验室操作台式机,平时背着轻
阅读全文
摘要:错误信息 [ERROR] Failed to construct terminal; falling back to unsupported java.lang.NumberFormatException: For input string: "0x100" at java.lang.NumberF
阅读全文
摘要:Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的
阅读全文
摘要:在知网可以下载。发表于2014年9年。 引言 在存储数据方面,Spark采取数据块的方式分布式存储在集群的各个节点,不支持传统并行数据仓库中的数据预划分和数据索引。也就是Spark无法干预数据的分布。 但是传统并行分析型数据块中,对等值连接操作的优化大多基于数据预划分。(这种情况使得Spark不能通
阅读全文
摘要:背景 集群资源管理,一般有计算资源、存储资源、网络资源。当前调度优化一般有基于数据本地研究与改进、负载均衡和基于作业优先级。 基于网络资源调度策略研究现状 大数据对网络资源的要求很高。网络资源调度,一般是基于SDN的改进。SDN,软件定义网络。使用一个控制器来使得网络达到负载均衡。对于网络资源的调度
阅读全文
摘要:通过知网可以查到这篇文章。于2020年3月发表在计算机应用研究。 背景 K-means是聚类算法的经典算法。由于运行时,初始聚类中心点和簇数的不确定性,使聚类结果存在很大不稳定性。两个缺点:一是要初始化中心,随机选择,具有不确定性;二是要有几个中心,也具有不确定性。 一般对K-means的改进,是中
阅读全文
摘要:通过知网下载此篇文章。于2018年7月发表在计算机科学。 引言 大数据平台的执行环境由于受到底层硬件、体系结构、操作系统、Spark框架本身以及用户编写的应用程序等多层次的综合影响。 如果不了解Spark底层复杂的执行机制,就找不到性能瓶颈,也就无法优化。 Spark工作原理 (这里只记录自己觉得需
阅读全文
摘要:这篇文章可以在知网下载,发表时间2020-06-07。以下是个人对这篇文章的阅读笔记和个人感想。 侵删。 背景和简介 通过摘要和介绍,可以了解到Spark的“统一内存管理”模型共分为4层,自上往下分别是Spark层、JVM层、OS层、Hardware层。目前对Spark的性能优化,只停留在某一层。
阅读全文
摘要:《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。 本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。 具体内容可参
阅读全文
摘要:内容来自于林子雨老师的《Spark编程基础》和一些自己的学习笔记。 概述 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。这里我把它理解为,因为Spark不能处理毫秒级流计算而诞生的流处理引擎。因此Structured Streaming
阅读全文
摘要:流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态
阅读全文
摘要:Spark SQL简介 Shark Shark即Hive On Spark,Shark再HiveQL方面重用了Hive中HiveQL的解析器、编译器、优化器,可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的
阅读全文
摘要:Spark集群上的运行 Spark集群采用的是主/从结构,主是驱动器节点driver,其他是工作节点executor,之间通过集群管理器来连接。 驱动器在Spark应用有两个职责: 把用户程序转为任务。转为多个物理执行的单元,即任务task。驱动器会按DAG图来执行,也会对DAG进行流水线优化,形成
阅读全文
摘要:RDD操作 词频统计 line = sc.textFile("file:///usr/local/spark/word.txt") wordCount = lines.flatMap(lambda line: line.split(" ").map(lambda word: (word,1)).re
阅读全文
摘要:HBase安装 在HBase学习中有安装指导博客 创建HBase表 启动Hadoop、Spark 创建表 插入数据 Spark配置 下载jar包 把hbase/lib下的jar包拷贝到spark/jars目录下。 拷贝的jar包有:hbase .jar,guava 12.0.1.jar,htrace
阅读全文
摘要:Spark数据读取 对于存储在本地文件系统或分布式文件系统(HDFS、Amazon S3)中的数据,Spark可以访问很多种不同的文件格式,比如文本文件、JSON、SequenceFile Spark SQL中的结构化数据源,包括JSON和Hive的结构化数据源 数据库和键值存储,自带的库,联结HB
阅读全文
摘要:键值对RDD通常用来进行聚合计算。通过ETL将数据转化为键值对形式。 PairRDD是很多程序的构成要素,提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 pair RDD提供reduceByKey()可以分别规约每个键对应的数据,join()把两个RDD中键相同的元素组合到一起。 Pair
阅读全文
浙公网安备 33010602011771号