Spark - 文章分类(第3页) - MissRong

Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数 (1）什么是parquet文件？+ 通用的Load/Save函数

摘要：Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数 1）什么是parquet文件？ Parquet是列式存储格式的一种文件类型，列式存储有以下的核心：（1）可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。（2）压缩编码可以降低磁盘存储空间。阅读全文

posted @ 2020-07-25 16:13 MissRong 阅读(168) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (七)Spark SQL中的视图-Global Temporary View

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (七)Spark SQL中的视图在Spark SQL中，如果你想拥有一个临时的view，并想在不同的Session中共享，而且在application的运行周期内可用，那么就需要创建一个全局的临时view。并记得使用的时候加阅读全文

posted @ 2020-07-19 23:31 MissRong 阅读(865) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (六)Datasets的操作案例

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (六)Datasets的操作案例一、单表查询 1.使用emp.json 生成DataFrame val empDF = spark.read.json("/root/resources/emp.json") 查询工资大于30 阅读全文

posted @ 2020-07-19 22:55 MissRong 阅读(85) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (五)创建Dataset ✔

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (五)创建Dataset ✔ DataSet:跟DataFrame类似，是一套新的接口。把DataSet理解成高级的DataFrame DataFrame的引入，可以让Spark更好的处理结构数据的计算，但其中一个主要的问题阅读全文

posted @ 2020-07-19 22:33 MissRong 阅读(188) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（3）多表查询

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（3）多表查询两个表都要注册-将数据和Schema进行绑定,并且创建好临时的视图阅读全文

posted @ 2020-07-19 21:56 MissRong 阅读(207) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（2）在DataFrame中使用SQL语句

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（2）在DataFrame中使用SQL语句 ①　将DataFrame注册成表（视图）：df.createOrReplaceTempView("emp") ②　执行查询：spark.sql("sele 阅读全文

posted @ 2020-07-19 14:50 MissRong 阅读(271) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（1）DataFrame API

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作（1）DataFrame API DataFrame操作也称为无类型的Dataset操作（1）查询所有的员工姓名（2）查询所有的员工姓名和薪水，并给薪水加100块钱（3）查询工资大于2000的阅读全文

posted @ 2020-07-19 14:45 MissRong 阅读(108) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（3）使用JSon文件来创建DataFrame

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（3）使用JSon文件来创建DataFrame 可以直接读取一个带格式的文件，最简单的创建DataFrame的方式，但只是针对有格式的文件。 ①　源文件：$SPARK_HOME/examples/s 阅读全文

posted @ 2020-07-18 19:52 MissRong 阅读(317) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（2）使用SparkSession

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（2）使用SparkSession 一、什么是SparkSession Apache Spark 2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且阅读全文

posted @ 2020-07-18 18:46 MissRong 阅读(421) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（1）通过Case Class创建DataFrame

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame（1）通过Case Class创建DataFrame 1.定义case class（相当于表的结构：Schema）注意：由于mgr和comm列中包含null值，简单起见，将对应的case clas 阅读全文

posted @ 2020-07-18 18:19 MissRong 阅读(494) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (二)核心概念：Dataset和DataFrame ✔

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (二)核心概念：Dataset和DataFrame 表=表结构+数据 DataFrame=Schema（case class）+RDD Datasets在spark1.6时，对DataFrame进行了封装，不过常用的还是Dat 阅读全文

posted @ 2020-07-17 18:16 MissRong 阅读(107) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (一)Spark SQL简介 ✔

摘要：Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (一)Spark SQL简介一、什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块，只能处理结构化的数据。它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。阅读全文

posted @ 2020-07-17 18:08 MissRong 阅读(130) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-【Spark基础编程案例】案例四：使用JdbcRDD操作数据库（不常用）

摘要：Spark 2.x管理与开发-【Spark基础编程案例】案例四：使用JdbcRDD操作数据库（不常用）一、表格数据展示二、Scala代码实现 package coreExamples import org.apache.spark.SparkConf import org.apache.spar 阅读全文

posted @ 2020-07-17 17:41 MissRong 阅读(95) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-【Spark基础编程案例】案例三：访问数据库

摘要：Spark 2.x管理与开发-【Spark基础编程案例】案例三：访问数据库一、需求将RDD数据保存到MySQL中取出所有的Tomcat访问日志中的jsp名，计数并将其存入MySQL中。二、MySQL表格设计三、Scala代码实现 package coreExamples import or 阅读全文

posted @ 2020-07-17 17:35 MissRong 阅读(133) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-【Spark基础编程案例】案例二：创建自定义分区

摘要：Spark 2.x管理与开发-【Spark基础编程案例】案例二：创建自定义分区一、需求根据jsp文件的名字，将各自的访问日志放入到不同的分区文件中二、Scala代码实现 package coreExamples import org.apache.spark.SparkConf import 阅读全文

posted @ 2020-07-17 17:18 MissRong 阅读(99) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-【Spark基础编程案例】案例一：求网站的访问量

摘要：Spark 2.x管理与开发-【Spark基础编程案例】案例一：求网站的访问量一、Tomcat的访问日志二、要求求出访问量最高的两个网页要求显示：网页名称、访问量三、代码实现 package coreExamples import org.apache.spark.SparkConf im 阅读全文

posted @ 2020-07-17 17:08 MissRong 阅读(200) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark RDD的高级算子（三）aggregateByKey*

摘要：Spark 2.x管理与开发-Spark RDD的高级算子（三）aggregateByKey* https://spark.apache.org/docs/2.1.0/api/scala/#org.apache.spark.rdd.PairRDDFunctions 类似于aggregate操作，区别阅读全文

posted @ 2020-07-14 11:37 MissRong 阅读(92) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark RDD的高级算子（四）coalesce与repartition+其他高级算子

摘要：Spark 2.x管理与开发-Spark RDD的高级算子（四）coalesce与repartition+其他高级算子一、coalesce与repartition 都是将RDD中的分区进行重分区。区别是：coalesce默认不会进行shuffle（false）；而repartition会进行sh 阅读全文

posted @ 2020-07-12 23:24 MissRong 阅读(73) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark RDD的高级算子（二）aggregate*

摘要：Spark 2.x管理与开发-Spark RDD的高级算子（二）aggregate* 聚合操作，类似于分组Group　By （１）先对局部进行聚合操作，再对全局进行聚合操作（２）举例：将每一个分区中的最大值加在一起分成两步操作：１）先在分区内部进行最大值操作２）面对全局进行操作－求和：２＋阅读全文

posted @ 2020-07-12 23:06 MissRong 阅读(93) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark RDD的高级算子（一）mapPartitionsWithIndex*

摘要：Spark 2.x管理与开发-Spark RDD的高级算子（一）mapPartitionsWithIndex* 对RDD中的每个分区进行操作（可以取到分区号），下标用Index表示。通过这个算子，可以获取到分区号。通过自己定义的函数来处理参数：ｆ是一个函数参数，用于对分区数据处理ｆ本身接收两阅读全文

posted @ 2020-07-12 20:58 MissRong 阅读(87) 评论(0) 推荐(0) |

MissRong

现时的明艳，源于曾经奋斗的泪泉和牺牲的血雨。

公告

文章分类 - Spark