上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 69 下一页

2022年4月12日

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Spark.V09|——|Spark.v09|spark sql|UDAF|

摘要: 一、UDAF ### UDAF ~~~ # 数据如下: id, name, sales, discount, state, saleDate 1, "Widget Co", 1000.00, 0.00, "AZ", "2019-01-01" 2, "Acme Widgets", 2000.00, 5 阅读全文

posted @ 2022-04-12 13:23 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Spark.V10|——|Spark.v10|spark sql|访问hive|

摘要: 一、访问Hive ### 在 pom.xml文件中增加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>${spark.version}</ve 阅读全文

posted @ 2022-04-12 13:23 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:23 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|spark sql|UDF|

摘要: 一、UDF ### UDF ~~~ UDF(User Defined Function),自定义函数。 ~~~ 函数的输入、输出都是一条数据记录,类似于Spark SQL中普通的数学或字符串函数。 ~~~ 实现上看就是普通的Scala函数; ~~~ UDAF(User Defined Aggrega 阅读全文

posted @ 2022-04-12 13:22 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|spark sql|SQL语句|

摘要: 一、SQL语句 ### SQL语句 ~~~ 总体而言:SparkSQL与HQL兼容;与HQL相比,SparkSQL更简洁。 ~~~ createTempView、createOrReplaceTempView、spark.sql("SQL") 二、SQL语句执行说明 三、编程实现 ### 编程实现 阅读全文

posted @ 2022-04-12 13:21 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|spark sql|编程&输入输出|

摘要: 一、输入与输出 ### 输入输出 ~~~ SparkSQL内建支持的数据源包括: ~~~ Parquet、JSON、CSV、Avro、Images、BinaryFiles(Spark 3.0)。其中Parquet是默认的数据源。 ### 输入输出实验 ~~~ # 内部使用 DataFrameRead 阅读全文

posted @ 2022-04-12 13:21 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|spark sql|Transformation操作|

摘要: 一、Transformation 操作 ### select * from tab where ... group by ... having... order by... # 1、RDD类似的操作持久化 ~~~ 缓存与checkpoint ~~~ select ~~~ where ~~~ grou 阅读全文

posted @ 2022-04-12 13:20 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|spark sql|三者的转换&Action转换|

摘要: 一、三者的转换 ### RDD、DataFrame、Dataset三者之间转换 ~~~ SparkSQL提供了一个领域特定语言(DSL)以方便操作结构化数据。 ~~~ 核心思想还是SQL;仅仅是一个语法的问题。 二、Action操作 ### Action操作 ~~~ # 与RDD类似的操作 ~~~ 阅读全文

posted @ 2022-04-12 13:19 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|spark sql|sparksession|

摘要: 一、Spark SQL编程 ### sparkseeion官方地址 ~~~ 官方文档:http://spark.apache.org/docs/latest/sql-getting-started.html ### SparkSession ~~~ 在 Spark 2.0 之前: ~~~ SQLCo 阅读全文

posted @ 2022-04-12 13:18 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|spark sql|DataFrame & Dataset创建|

摘要: 一、DataFrame & Dataset 的创建 ### DataFrame & Dataset 的创建 ~~~ 不要刻意区分:DF、DS。DF是一种特殊的DS;ds.transformation => df ### 由range生成Dataset scala> val numDS = spark 阅读全文

posted @ 2022-04-12 13:18 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|spark sql|概述特点|

摘要: 一、SparkSQL ### Spark SQL概述 ~~~ Hive的诞生,主要是因为开发MapReduce程序对 Java 要求比较高, ~~~ 为了让他们能够操作HDFS上的数据,推出了Hive。 ~~~ Hive与RDBMS的SQL模型比较类似,容易掌握。 ~~~ Hive的主要缺陷在于它的 阅读全文

posted @ 2022-04-12 13:17 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|——|Spark.v12|sparkcore|RDD编程高阶&spark原理初探&RDD编程优化|

摘要: 一、RDD编程优化 ### RDD复用 ~~~ 避免创建重复的RDD。在开发过程中要注意: ~~~ 对于同一份数据,只应该创建一个RDD,不要创建多个RDD来代表同一份数据。 ### RDD缓存/持久化 ~~~ 当多次对同一个RDD执行算子操作时,每一次都会对这个RDD以之前的父RDD重新计算一次, 阅读全文

posted @ 2022-04-12 13:16 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:16 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|——|Spark.v11|sparkcore|RDD编程高阶&spark原理初探&shuffle原理|

摘要: 一、Shuffle原理 ### shuffle原理 ~~~ Shuffle的本意是洗牌,目的是为了把牌弄乱。 ~~~ Spark、Hadoop中的shuffle可不是为了把数据弄乱, ~~~ 而是为了将随机排列的数据转换成具有一定规则的数据。 ~~~ Shuffle是MapReduce计算框架中的一 阅读全文

posted @ 2022-04-12 13:15 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|——|Spark.v09|sparkcore|RDD编程高阶&TopN优化|

摘要: 一、TopN编程代码 ### TopN编程代码优化 package cn.yanqi.sparkcore import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.co 阅读全文

posted @ 2022-04-12 13:14 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|RDD编程高阶&spark原理初探&standalone模式作业提交|

摘要: 一、Spark原理初探:Standalone模式作业提交 ### Standalone 模式下有四个重要组成部分,分别是: ~~~ Driver:用户编写的 Spark 应用程序就运行在 Driver 上,由Driver 进程执行 ~~~ Master:主要负责资源的调度和分配,并进行集群的监控等职 阅读全文

posted @ 2022-04-12 13:14 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|sparkcore|RDD编程高阶&RDD分区器|

摘要: 一、RDD分区器 ### 以下RDD分别是否有分区器,是什么类型的分区器 scala> val rdd1 = sc.textFile("/wcinput/wc.txt") rdd1: org.apache.spark.rdd.RDD[String] = /wcinput/wc.txt MapPart 阅读全文

posted @ 2022-04-12 13:13 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程高阶&广播变量|

摘要: 一、广播变量 ### 广播变量 ~~~ 有时候需要在多个任务之间共享变量,或者在任务(Task)和Driver Program之间共享变量。 ~~~ 为了满足这种需求,Spark提供了两种类型的变量: ~~~ 广播变量(broadcast variables) ~~~ 累加器(accumulator 阅读全文

posted @ 2022-04-12 13:13 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|sparkcore|RDD编程高阶&RDD累加器|

摘要: 一、RDD累加器 ### 累加器 ~~~ 累加器的作用:可以实现一个变量在不同的 Executor 端能保持状态的累加; ~~~ 累计器在 Driver 端定义,读取;在 Executor 中完成累加; ~~~ 累加器也是 lazy 的,需要 Action 触发;Action触发一次,执行一次,触发 阅读全文

posted @ 2022-04-12 13:13 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|sparkcore|RDD编程高阶&RDD分区数|

摘要: 一、RDD的分区 ### RDD分区 ~~~ spark.default.parallelism:(默认的并发数)= 2 ~~~ 当配置文件spark-default.conf中没有显示的配置,则按照如下规则取值: 二、RDD分区示例 ### 本地模式 ~~~ # spark-shell --mas 阅读全文

posted @ 2022-04-12 13:12 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|sparkcore|RDD编程高阶&RDD持久化&缓存|

摘要: 一、RDD持久化/缓存 ### 涉及到的算子:persist、cache、unpersist;都是 Transformation ~~~ 缓存是将计算结果写入不同的介质, ~~~ 用户定义可定义存储级别(存储级别定义了缓存存储的介质,目前支持内存、堆外内存、磁盘); ~~~ 通过缓存,Spark避免 阅读全文

posted @ 2022-04-12 13:11 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|sparkcore|RDD编程高阶&RDD容错机制Checkpoint|

摘要: 一、RDD容错机制Checkpoint ### 涉及到的算子:checkpoint;也是 Transformation ~~~ Spark中对于数据的保存除了持久化操作之外,还提供了检查点的机制; ### 检查点本质是通过将RDD写入高可靠的磁盘,主要目的是为了容错。检查点通过将 ~~~ 数据写入到 阅读全文

posted @ 2022-04-12 13:11 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|RDD编程高阶&序列化|

摘要: 一、RDD编程高阶 ### Spark原理:序列化 ~~~ 在实际开发中会自定义一些对RDD的操作,此时需要注意的是: ~~~ 初始化工作是在Driver端进行的 ~~~ 实际运行程序是在Executor端进行的 ~~~ 这就涉及到了进程通信,是需要序列化的。 二、RDD序列化代码实现 ### 可以 阅读全文

posted @ 2022-04-12 13:10 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|sparkcore|RDD依赖关系&再谈wordcount|

摘要: 一、RDD依赖关系 ### RDD依赖关系 ~~~ RDD只支持粗粒度转换,即在大量记录上执行的单个操作。 ~~~ 将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。 ~~~ RDD的Lineage会记录RDD的元数据信息和转换行为, ~~~ 当该RDD的部分分区数据丢失时,可 阅读全文

posted @ 2022-04-12 13:10 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:10 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00025|——————————|^^ 案例 ^^|——|Hadoop&Spark.V13|——|Spark.v12|sparkcore|算子综合案例&wordcount-super&将计算结果写入mysql|

摘要: 一、算子综合案例:Super WordCount ### Super WordCount ~~~ 要求:将单词全部转换为小写,去除标点符号(难),去除停用词(难); ~~~ 最后按照count 值降序保存到文件, ~~~ 同时将全部结果保存到MySQL(难);标点符号和停用词可以自定义。 ~~~ 停 阅读全文

posted @ 2022-04-12 13:09 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00024|——————————|^^ 案例 ^^|——|Hadoop&Spark.V12|——|Spark.v12|sparkcore|算子综合案例&找共同好友|

摘要: 一、算子综合案例&找共同好友 ### 找共同好友 ~~~ 第一列表示用户,后面的表示该用户的好友 ~~~ # 原始数据: 100, 200 300 400 500 600 200, 100 300 400 300, 100 200 400 500 400, 100 200 300 500, 100 阅读全文

posted @ 2022-04-12 13:08 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00022|——————————|^^ 案例 ^^|——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|算子综合案例&计算圆周率|

摘要: 一、算子综合案例:计算圆周率:计算圆周率说明 二、编程代码实现 ### 编程代码实现 package cn.yanqi.sparkcore import org.apache.spark.{SparkConf, SparkContext} import scala.math.random objec 阅读全文

posted @ 2022-04-12 13:07 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00023|——————————|^^ 案例 ^^|——|Hadoop&Spark.V11|——|Spark.v11|sparkcore|算子综合案例&广告数据统计|

摘要: 一、算子综合案例:广告数据统计 ### 广告数据统计 ~~~ 数据格式:timestamp province city userid adid 时间点 省份 城市 用户 广告 ### 广告数据统计案例需求 ~~~ 需求: 1、统计每一个省份点击TOP3的广告ID 2、统计每一个省份每一个小时的TOP 阅读全文

posted @ 2022-04-12 13:07 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程&输入输出|

摘要: 一、输入与输出 ### 文件输入与输出:文本文件 ~~~ 数据读取:textFile(String)。可指定单个文件,支持通配符。 ~~~ 这样对于大量的小文件读取效率并不高, ~~~ 应该使用 wholeTextFilesdef wholeTextFiles(path: String, minPa 阅读全文

posted @ 2022-04-12 13:06 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00020|——————————|^^ 案例 ^^|——|Hadoop&Spark.V08|——|Spark.v08|sparkcore|算子综合案例&wordcount-scala|

摘要: 一、算子综合应用案例:wordCount-scala ### WordCount - scala package cn.yanqi.sparkcore import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkC 阅读全文

posted @ 2022-04-12 13:06 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00021|——————————|^^ 案例 ^^|——|Hadoop&Spark.V09|——|Spark.v09|sparkcore|算子综合案例&wordcount-Java|

摘要: 一、算子综合案例wordcount-java ### WordCount - java ~~~ Spark提供了:Scala、Java、Python、R语言的API;对 Scala 和 Java 语言的支持最好; ### 源码地址说明 ~~~ 地址:https://spark.apache.org/ 阅读全文

posted @ 2022-04-12 13:06 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|sparkcore|RDD编程&Key-Value RDD操作|

摘要: 一、Key-Value RDD操作 ### Key_Value RDD操作 ~~~ RDD整体上分为 Value 类型和 Key-Value 类型。 ~~~ 前面介绍的是 Value 类型的RDD的操作, ~~~ 实际使用更多的是 key-value 类型的RDD,也称为 PairRDD。 ~~~ 阅读全文

posted @ 2022-04-12 13:05 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|sparkcore|RDD编程&Action算子|

摘要: 一、Action ### Action 用来触发RDD的计算,得到相关计算结果; ~~~ Action触发Job。一个Spark程序(Driver程序)包含了多少 Action 算子,那么就有多少Job; ~~~ 典型的Action算子: collect / count ~~~ collect() 阅读全文

posted @ 2022-04-12 13:04 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00015|——————————|^^ 配置 ^^|——|Hadoop&Spark.V03|——|Spark.v03|sparkcore|RDD编程&sparkcontext创建|

摘要: 一、设置spark-standalone集群非HA模式 ### 修改配置文件 [root@hadoop02 ~]# vim $SPARK_HOME/conf/spark-env.sh export JAVA_HOME=/opt/yanqi/servers/jdk1.8.0_231 export HA 阅读全文

posted @ 2022-04-12 13:03 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|sparkcore|RDD编程&Transformation|

摘要: 一、Transformation【重要】 ### Transformation:RDD的操作算子分为两类: ~~~ Transformation:用来对RDD进行转化,这个操作时延迟执行的(或者说是Lazy 的); ~~~ Action:用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部 阅读全文

posted @ 2022-04-12 13:03 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|sparkcore|RDD编程&RDD编程模型|

摘要: 一、RDD编程模型 ### RDD编程模型 ~~~ RDD表示数据对象 ~~~ 通过对象上的方法调用来对RDD进行转换 ~~~ 最终显示结果 或 将结果输出到外部数据源 ~~~ RDD转换算子称为Transformation是Lazy的(延迟执行) ~~~ 只有遇到Action算子,才会执行RDD的 阅读全文

posted @ 2022-04-12 13:02 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|RDD编程&什么是RDD&RDD特点|

摘要: 一、RDD编程 ### 什么是RDD ~~~ RDD是 Spark 的基石,是实现 Spark 数据处理的核心抽象。 ~~~ RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 ~~~ RDD(Resilient Distributed Dataset)是 Spark 中的 阅读全文

posted @ 2022-04-12 13:01 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:00 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00010|——————————|^^ 配置 ^^|——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|集群模式&yarn模式&整合hdfsspark的historyserver服务|

摘要: 一、集群模式--Yarn模式 ### 集群模式-Yarn模式 ~~~ 参考:http://spark.apache.org/docs/latest/running-on-yarn.html ~~~ 需要启动的服务:hdfs服务、yarn服务 ~~~ 需要关闭 Standalone 对应的服务(即集群 阅读全文

posted @ 2022-04-12 12:59 yanqi_vip 阅读(48) 评论(0) 推荐(0)

上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 69 下一页

导航