随笔分类 -  Spark

1
摘要:一、前言 对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送到集群上的执行程序时,共享变量的副本将在集群的每个节点上运行,以便可以将其用于执行任务。 累加器(Accumulators)与广播变量(Broadcast Variables)共同作为Spark提供的两大共享变量,主要 阅读全文
posted @ 2022-06-30 17:09 干了这瓶老干妈 阅读(208) 评论(0) 推荐(0)
摘要:sbt下载官网地址:https://www.scala-sbt.org/download.html 一、Ubuntu安装 echo "deb https://repo.scala-sbt.org/scalasbt/debian all main" | sudo tee /etc/apt/source 阅读全文
posted @ 2022-06-24 16:19 干了这瓶老干妈 阅读(521) 评论(0) 推荐(0)
摘要:初始的DataFrame: from pyspark.sql.types import StructType, StructField schema = StructType([StructField("uuid",IntegerType(),True),StructField("test_123" 阅读全文
posted @ 2022-04-26 13:52 干了这瓶老干妈 阅读(246) 评论(0) 推荐(0)
摘要:本文将介绍spark读取多列txt文件后转成DataFrame的两种方法。 数据是Spark中自带的:sample_movielens_ratings.txt //形式如下面所示 0::2::3::1424380312 0::3::1::1424380312 0::5::2::1424380312 阅读全文
posted @ 2022-03-18 10:22 干了这瓶老干妈 阅读(2225) 评论(0) 推荐(0)
摘要:在Spark中创建RDD的创建方式可以分为四种: ps:本文代码基于spark on zeppelin实现 1、从集合(内存)中创建RDD 从集合中创建RDD,Spark主要提供了两个方法:parallelize和makeRDD // 使用parallelize方法 val rdd1 = sc.pa 阅读全文
posted @ 2022-03-08 00:58 干了这瓶老干妈 阅读(1268) 评论(0) 推荐(0)
摘要:Spark读取Hive数据的方式主要有两种: 1、通过访问hive metastore的方式,这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径,这种方式的特点是效率高、数据吞吐量大、使用spark操作起来更加友好。 2、通过spark jdbc的方 阅读全文
posted @ 2022-03-04 11:12 干了这瓶老干妈 阅读(3129) 评论(0) 推荐(0)
摘要:Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。 num-executors:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,Y 阅读全文
posted @ 2022-03-02 23:07 干了这瓶老干妈 阅读(152) 评论(0) 推荐(0)
摘要:一、flatMap 作用:首先将函数应用于RDD的所有元素,然后将结果展平,返回一个新的RDD。 应用场景:文件中的所有行数据仅返回了一个数组对象。(即:Map映射 + 数据扁平化操作) 二、Map 作用:将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。通过将函数应用于此 阅读全文
posted @ 2022-02-17 17:26 干了这瓶老干妈 阅读(661) 评论(0) 推荐(0)
摘要:参考文章: Spark中cache和persist的作用以及存储级别 阅读全文
posted @ 2022-02-17 16:31 干了这瓶老干妈 阅读(46) 评论(0) 推荐(0)
摘要:导入以下代码: //导入隐饰操作,否则RDD无法调用toDF方法 import org.apache.spark.sql.SparkSession val spark = SparkSession.builder.master("local[4]").getOrCreate import spark 阅读全文
posted @ 2022-02-15 15:38 干了这瓶老干妈 阅读(889) 评论(0) 推荐(0)
摘要:log4j.rootCategory=ERROR, console\ log4j.appender.console=org.apache.log4j.ConsoleAppender \ log4j.appender.console.target=System.err \ log4j.appender 阅读全文
posted @ 2022-02-15 14:32 干了这瓶老干妈 阅读(311) 评论(0) 推荐(0)
摘要:1、安装JDK 这里不再赘述。 2、安装Spark 到官网https://spark.apache.org/downloads.html选择合适的版本下载,注意Spark与Hadoop版本选择要相对应,建议下载预编译(Pre-built)好的版本,省得麻烦 解压要需要的目录下,并配置环境变量SPAR 阅读全文
posted @ 2022-02-15 11:38 干了这瓶老干妈 阅读(469) 评论(0) 推荐(0)
摘要:一、textFile源码 /** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file system URI, and return it 阅读全文
posted @ 2022-02-14 22:58 干了这瓶老干妈 阅读(538) 评论(0) 推荐(0)
摘要:降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下,从原始和噪声特征中提取潜在特征或在保持结构 阅读全文
posted @ 2022-01-28 15:46 干了这瓶老干妈 阅读(193) 评论(0) 推荐(0)
摘要:给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值、中位数、众数和四分位均值),展型(比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等),统计离差,分布的形状,依赖性等。除此之外,spar 阅读全文
posted @ 2022-01-28 14:25 干了这瓶老干妈 阅读(505) 评论(0) 推荐(0)
摘要:数据类型——基于RDD的API 本地矢量 标记点 本地矩阵 分布式矩阵 RowMatrix(行矩阵) IndexedRowMatrix(索引行矩阵) CoordinateMatrix(坐标矩阵) BlockMatrix(块矩阵) MLlib 支持存储在单台机器上的本地向量和矩阵,以及由一个或多个 R 阅读全文
posted @ 2022-01-27 14:45 干了这瓶老干妈 阅读(556) 评论(0) 推荐(0)
摘要:示例一:统计所有单词出现的次数 1、在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2、在spark中,创建一个RDD并读取文件 %spark var data = sc.textFile("/ 阅读全文
posted @ 2022-01-25 14:06 干了这瓶老干妈 阅读(1508) 评论(0) 推荐(0)
摘要:1、Map函数:通过函数传递源的每个元素,并形成新的分布式数据集。 %spark #并行化集合生成RDD var data = sc.parallelize(List(10,20,30)) %输出结果 data.collect%应用map函数并传递表达式var mapFunc = data.map( 阅读全文
posted @ 2022-01-25 10:23 干了这瓶老干妈 阅读(141) 评论(0) 推荐(0)
摘要:RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。 创建RDD的两种方式: 并行化驱动程序中的现有数据; 引用外部存储系统中的数据集。 并行化集合 要创建并行化集合,在驱动程序中现有的集合上调用SparkContext的par 阅读全文
posted @ 2022-01-24 17:23 干了这瓶老干妈 阅读(84) 评论(0) 推荐(0)
摘要:Apache Spark是一个开源的集群计算框架,主要用来处理实时生成的数据。 Spark是建立在Hadoop的MapReduce顶部。它被优化到了内存中运行,而MapReduce等替代方法是将数据写入硬盘或从硬盘中写入数据,因此,Spark比其它替代方法运行速度更快。 Apache Spark的特 阅读全文
posted @ 2022-01-24 14:40 干了这瓶老干妈 阅读(580) 评论(0) 推荐(0)

1
Live2D