随笔分类 -  大数据开发-spark

摘要:hdfs的shell命令操作 hdfs的shell命令操作的主要类型: 1、对hdfs的操作命令 2、获得一些配置相关的命令 3、管理员相关的命令 4、文件系统检查相关的命令 hdfs命令(对hdfs的基础操作) HDFS命令有两种风格,hadoop fs开头的和hdfs dfs开头的,两种命令均可 阅读全文
posted @ 2020-08-25 23:42 Whatever_It_Takes 阅读(655) 评论(0) 推荐(0)
摘要:Spark调优——分配更多的资源 分配更多的资源是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的。 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要来调节最优的资源配置; 在这个基 阅读全文
posted @ 2020-08-25 06:24 Whatever_It_Takes 阅读(405) 评论(0) 推荐(0)
摘要:sparksql处理点击流日志数据案例(★★★★★) 需求描述 通过sparsql对用户访问产生点击流日志数据进行分析处理,计算出对应的指标 工具类开发 代码开发——校验日志数据进行字段解析提取的工具类AccessLogUtils import scala.util.matching.Regex / 阅读全文
posted @ 2020-08-25 06:19 Whatever_It_Takes 阅读(362) 评论(0) 推荐(0)
摘要:sparksql整合hive spark整合hive步骤 把node03的hive安装目录下的配置文件hive-site.xml拷贝到每一个spark安装目录下对应的conf文件夹中(3台机器) cd /kkb/install/hive-1.1.0-cdh5.14.2/conf cp hive-si 阅读全文
posted @ 2020-08-25 06:15 Whatever_It_Takes 阅读(188) 评论(0) 推荐(0)
摘要:sparksql中自定义函数(★★★★★) 创建文件F:/test/test_udf.txt hello Hadoop DataFrame spark 自定义UDF函数 代码开发 import org.apache.spark.sql.api.java.UDF1 import org.apache. 阅读全文
posted @ 2020-08-25 06:12 Whatever_It_Takes 阅读(217) 评论(0) 推荐(0)
摘要:sparksql 操作hivesql 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.3</version> </dependenc 阅读全文
posted @ 2020-08-25 06:09 Whatever_It_Takes 阅读(834) 评论(0) 推荐(0)
摘要:通过IDEA开发程序实现把RDD转换DataFrame 官网学习如何创建spark sql Scala程序 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <v 阅读全文
posted @ 2020-08-25 06:02 Whatever_It_Takes 阅读(407) 评论(0) 推荐(0)
摘要:DataSet概述 DataSet是什么 DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。 强类型:所属类型必须在编译时确定。 DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用 阅读全文
posted @ 2020-08-25 05:52 Whatever_It_Takes 阅读(727) 评论(1) 推荐(0)
摘要:DataFrame概述 spark core >操控RDD spark sql >操控DataFrame DataFrame发展 DataFrame前身是schemaRDD,这个schemaRDD是直接继承自RDD,它是RDD的一个实现类 在spark1.3.0之后把schemaRDD改名为Data 阅读全文
posted @ 2020-08-25 04:56 Whatever_It_Takes 阅读(1411) 评论(0) 推荐(0)
摘要:sparksql概述 sparksql的前世今生 Shark是专门针对于spark的构建大规模数据仓库系统的一个框架 Shark与Hive兼容、同时也依赖于Spark版本 Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务 随着性能优化的上限,以 阅读全文
posted @ 2020-08-25 04:47 Whatever_It_Takes 阅读(735) 评论(0) 推荐(0)
摘要:基于wordcount程序剖析spark任务的提交、划分、调度流程(★★★★★) 阅读全文
posted @ 2020-08-25 04:42 Whatever_It_Takes 阅读(190) 评论(0) 推荐(0)
摘要:DAG有向无环图生成 DAG是什么 DAG(Directed Acyclic Graph) 叫做有向无环图(有方向,无闭环,代表着数据的流向),原始的RDD通过一系列的转换就形成了DAG。 下图是基于单词统计逻辑得到的DAG有向无环图 DAG划分stage(★★★★★) stage是什么 一个Job 阅读全文
posted @ 2020-08-25 04:30 Whatever_It_Takes 阅读(4415) 评论(1) 推荐(1)
摘要:RDD的缓存机制(★★★★★) 什么是rdd的缓存 spark可以把一个rdd的数据缓存起来,后续有其他的job需要用到该rdd的结果数据,可以直接从缓存中获取得到,避免了重复计算。缓存是加快后续对该数据的访问操作。 如何对rdd设置缓存 可以通过persist方法或cache方法将前面的RDD的数 阅读全文
posted @ 2020-08-24 03:25 Whatever_It_Takes 阅读(995) 评论(0) 推荐(1)
摘要:RDD的依赖关系 依赖类型 RDD根据依赖关系,可以分为父RDD和子RDD,父RDD就是被子RDD依赖的RDD。 而父RDD与子RDD的依赖关系,可以分为两种类型: 窄依赖(narrow dependency) 宽依赖(wide dependency) 窄依赖 窄依赖:指的是每一个父RDD的Part 阅读全文
posted @ 2020-08-24 03:22 Whatever_It_Takes 阅读(618) 评论(0) 推荐(0)
摘要:数据倾斜原理和现象分析 数据倾斜概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。 数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个 阅读全文
posted @ 2020-08-24 03:20 Whatever_It_Takes 阅读(884) 评论(0) 推荐(0)
摘要:spark的shuffle原理分析 shuffle概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Redu 阅读全文
posted @ 2020-08-24 03:17 Whatever_It_Takes 阅读(966) 评论(0) 推荐(0)
摘要:spark任务中资源参数剖析 通过开发工具开发好spark程序后达成jar包最后提交到集群中运行 提交任务脚本如下 spark-submit \ --master spark://node01:7077,node02:7077 \ --class com.kaikeba.WordCountOnSpa 阅读全文
posted @ 2020-08-24 03:15 Whatever_It_Takes 阅读(328) 评论(0) 推荐(0)
摘要:collect 算子操作剖析 collect算子操作的作用: 它是一个action操作,会触发任务的运行 它会把RDD的数据进行收集之后,以数组的形式返回给Driver端 总结: 默认Driver端的内存大小为1G,由参数 spark.driver.memory 设置。 如果某个rdd的数据量超过了 阅读全文
posted @ 2020-08-24 03:13 Whatever_It_Takes 阅读(890) 评论(0) 推荐(0)
摘要:spark on yarn spark程序可以提交到yarn中去运行,此时spark任务所需要的计算资源由yarn中的老大ResourceManager去分配 官网资料地址: http://spark.apache.org/docs/2.3.3/running-on-yarn.html 环境准备 安 阅读全文
posted @ 2020-08-24 03:09 Whatever_It_Takes 阅读(258) 评论(0) 推荐(0)
摘要:spark程序的序列化问题 transformation操作为什么需要序列化 spark是分布式执行引擎,其核心抽象是弹性分布式数据集RDD,其代表了分布在不同节点的数据。Spark的计算是在executor上分布式执行的,所以用户执行RDD的map,flatMap,reduceByKey等tran 阅读全文
posted @ 2020-08-24 03:06 Whatever_It_Takes 阅读(3077) 评论(0) 推荐(0)