文章分类 -  Spark

摘要:Spark 2.x管理与开发-Spark SQL-使用数据源(一)通用的Load/Save函数 1)什么是parquet文件? Parquet是列式存储格式的一种文件类型,列式存储有以下的核心: (1)可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。 (2)压缩编码可以降低磁盘存储空间。 阅读全文

posted @ 2020-07-25 16:13 MissRong 阅读(168) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (七)Spark SQL中的视图 在Spark SQL中,如果你想拥有一个临时的view,并想在不同的Session中共享,而且在application的运行周期内可用,那么就需要创建一个全局的临时view。并记得使用的时候加 阅读全文

posted @ 2020-07-19 23:31 MissRong 阅读(865) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (六)Datasets的操作案例 一、单表查询 1.使用emp.json 生成DataFrame val empDF = spark.read.json("/root/resources/emp.json") 查询工资大于30 阅读全文

posted @ 2020-07-19 22:55 MissRong 阅读(85) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (五)创建Dataset ✔ DataSet:跟DataFrame类似,是一套新的接口。 把DataSet理解成高级的DataFrame DataFrame的引入,可以让Spark更好的处理结构数据的计算,但其中一个主要的问题 阅读全文

posted @ 2020-07-19 22:33 MissRong 阅读(188) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作(3)多表查询 两个表都要注册-将数据和Schema进行绑定,并且创建好临时的视图 阅读全文

posted @ 2020-07-19 21:56 MissRong 阅读(207) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作(2)在DataFrame中使用SQL语句 ① 将DataFrame注册成表(视图):df.createOrReplaceTempView("emp") ② 执行查询:spark.sql("sele 阅读全文

posted @ 2020-07-19 14:50 MissRong 阅读(271) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (四)DataFrame操作(1)DataFrame API DataFrame操作也称为无类型的Dataset操作 (1)查询所有的员工姓名 (2)查询所有的员工姓名和薪水,并给薪水加100块钱 (3)查询工资大于2000的 阅读全文

posted @ 2020-07-19 14:45 MissRong 阅读(108) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(3)使用JSon文件来创建DataFrame 可以直接读取一个带格式的文件,最简单的创建DataFrame的方式,但只是针对有格式的文件。 ① 源文件:$SPARK_HOME/examples/s 阅读全文

posted @ 2020-07-18 19:52 MissRong 阅读(317) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(2)使用SparkSession 一、什么是SparkSession Apache Spark 2.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且 阅读全文

posted @ 2020-07-18 18:46 MissRong 阅读(421) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(1)通过Case Class创建DataFrame 1.定义case class(相当于表的结构:Schema) 注意:由于mgr和comm列中包含null值,简单起见,将对应的case clas 阅读全文

posted @ 2020-07-18 18:19 MissRong 阅读(494) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (二)核心概念:Dataset和DataFrame 表=表结构+数据 DataFrame=Schema(case class)+RDD Datasets在spark1.6时,对DataFrame进行了封装,不过常用的还是Dat 阅读全文

posted @ 2020-07-17 18:16 MissRong 阅读(107) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (一)Spark SQL简介 一、什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,只能处理结构化的数据。 它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 阅读全文

posted @ 2020-07-17 18:08 MissRong 阅读(130) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-【Spark基础编程案例】案例四:使用JdbcRDD操作数据库(不常用) 一、表格数据展示 二、Scala代码实现 package coreExamples import org.apache.spark.SparkConf import org.apache.spar 阅读全文

posted @ 2020-07-17 17:41 MissRong 阅读(95) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-【Spark基础编程案例】案例三:访问数据库 一、需求 将RDD数据保存到MySQL中 取出所有的Tomcat访问日志中的jsp名,计数并将其存入MySQL中。 二、MySQL表格设计 三、Scala代码实现 package coreExamples import or 阅读全文

posted @ 2020-07-17 17:35 MissRong 阅读(133) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-【Spark基础编程案例】案例二:创建自定义分区 一、需求 根据jsp文件的名字,将各自的访问日志放入到不同的分区文件中 二、Scala代码实现 package coreExamples import org.apache.spark.SparkConf import 阅读全文

posted @ 2020-07-17 17:18 MissRong 阅读(99) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-【Spark基础编程案例】案例一:求网站的访问量 一、Tomcat的访问日志 二、要求 求出访问量最高的两个网页 要求显示:网页名称、访问量 三、代码实现 package coreExamples import org.apache.spark.SparkConf im 阅读全文

posted @ 2020-07-17 17:08 MissRong 阅读(200) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark RDD的高级算子(三)aggregateByKey* https://spark.apache.org/docs/2.1.0/api/scala/#org.apache.spark.rdd.PairRDDFunctions 类似于aggregate操作,区别 阅读全文

posted @ 2020-07-14 11:37 MissRong 阅读(92) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark RDD的高级算子(四)coalesce与repartition+其他高级算子 一、coalesce与repartition 都是将RDD中的分区进行重分区。 区别是:coalesce默认不会进行shuffle(false);而repartition会进行sh 阅读全文

posted @ 2020-07-12 23:24 MissRong 阅读(73) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark RDD的高级算子(二)aggregate* 聚合操作,类似于分组Group By (1)先对局部进行聚合操作,再对全局进行聚合操作 (2)举例: 将每一个分区中的最大值加在一起 分成两步操作: 1)先在分区内部进行最大值操作 2)面对全局进行操作-求和:2+ 阅读全文

posted @ 2020-07-12 23:06 MissRong 阅读(93) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark RDD的高级算子(一)mapPartitionsWithIndex* 对RDD中的每个分区进行操作(可以取到分区号),下标用Index表示。 通过这个算子,可以获取到分区号。 通过自己定义的函数来处理 参数:f是一个函数参数,用于对分区数据处理 f本身接收两 阅读全文

posted @ 2020-07-12 20:58 MissRong 阅读(87) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3