Spark - 文章分类(第2页) - MissRong

Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶（二）离散流（DStreams）：Discretized Streams

摘要：Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶（二）离散流（DStreams）：Discretized Streams 把连续的数据流变成不连续的RDD 本质上Spark Streaming依然是离线计算 DStream是RDD的集合，包含不连续的R 阅读全文

posted @ 2020-08-06 16:35 MissRong 阅读(100) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶（一）StreamingContext对象详解

摘要：Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶（一）StreamingContext对象详解一、初始化StreamingContext 1.方式一：从SparkConf对象中创建 2.方式二：从一个现有的SparkContext实例中创建二、程序阅读全文

posted @ 2020-08-06 16:29 MissRong 阅读(373) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（三）【开发自己的NetworkWordCount 】

摘要：Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（三）【开发自己的NetworkWordCount 】（一定注意）： val sparkConf = new SparkConf().setAppName("NetworkWordCount").set 阅读全文

posted @ 2020-08-06 16:17 MissRong 阅读(72) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（二）第一个小案例：NetworkWordCount

摘要：Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（二）第一个小案例：NetworkWordCount （1）由于在本案例中需要使用netcat网络工具，所以需要先安装。（2）启动netcat数据流服务器，并监听端口：1234 命令：nc -l -p 阅读全文

posted @ 2020-08-06 15:56 MissRong 阅读(121) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（一）Spark Streaming简介+特点+内部结构

摘要：Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（一） 1、Spark Streaming简介官网：http://spark.apache.org/streaming/ Spark Streaming makes it easy to build s 阅读全文

posted @ 2020-08-06 15:44 MissRong 阅读(138) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（三）UDF和UDAF*

摘要：Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（三）UDF和UDAF* UDF-UserDefineFunction：每条数据都会过一下UDF。 UDAF-UserDefineAggregateFunction ：UDAF是在分组里面使用的，只有加了group by之后阅读全文

posted @ 2020-08-02 18:28 MissRong 阅读(138) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（二）多表查询*

摘要：Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（二）多表查询* 1.将三张表合并实现查询 Scala代码： package sqlExamples import org.apache.spark.sql.SparkSession import org.apache.lo 阅读全文

posted @ 2020-08-01 12:22 MissRong 阅读(544) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（一）单表查询*

摘要：Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】（一）单表查询* 1.读取并打印指定文件的所有数据 Scala代码： package sqlExamples import org.apache.spark.sql.SparkSession import org.apach 阅读全文

posted @ 2020-08-01 12:10 MissRong 阅读(166) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-性能优化（二）性能优化相关参数

摘要：Spark 2.x管理与开发-Spark SQL-性能优化（二）性能优化相关参数一、将数据缓存到内存中的相关优化参数 spark.sql.inMemoryColumnarStorage.compressed 默认为 true Spark SQL 将会基于统计信息自动地为每一列选择一种压缩编码方式。阅读全文

posted @ 2020-08-01 11:05 MissRong 阅读(239) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-性能优化（一）在内存中缓存数据（最常用最有效）

摘要：Spark 2.x管理与开发-Spark SQL-性能优化（一）在内存中缓存数据（最常用最有效）性能调优主要是将数据放入内存中操作。通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName 阅读全文

posted @ 2020-07-30 00:07 MissRong 阅读(1203) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（四）从Hive里读取数据并将结果存到MySQL中

摘要：Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（四）从Hive里读取数据并将结果存到MySQL中 1）启动进程启动Zookeeper集群、启动Hadoop-HA 启动Hive-HA的Server： [root@bigdata111 bin]# ./hi 阅读全文

posted @ 2020-07-28 19:44 MissRong 阅读(421) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（三）将数据保存到数据库

摘要：Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（三）将数据保存到数据库测试数据： Scala代码： package sqlExamples /** * 将数据存到MySQL-JDBC */ import org.apache.spark.sql.Spa 阅读全文

posted @ 2020-07-28 19:35 MissRong 阅读(354) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（二）使用case class ✔

摘要：Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（二）使用case class 准备的数据： Scala代码： package sqlExamples import org.apache.spark.sql.SparkSession /** * 创建Dat 阅读全文

posted @ 2020-07-28 19:26 MissRong 阅读(183) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（一）指定Schema格式

摘要：Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】（一）指定Schema格式准备的数据： Scala代码： package sqlExamples /** * 创建DataFrame（一） * 通过：使用StructType的方式 */ import or 阅读全文

posted @ 2020-07-28 19:21 MissRong 阅读(237) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（五）使用Hive Table（这里MySQL是本地主机上的）

该文被密码保护。

posted @ 2020-07-26 19:52 MissRong 阅读(0) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（四）使用JDBC

该文被密码保护。

posted @ 2020-07-26 10:03 MissRong 阅读(0) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（三）JSON Datasets

摘要：Spark 2.x管理与开发-Spark SQL-使用数据源（三）JSON Datasets Spark SQL能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的R 阅读全文

posted @ 2020-07-26 09:40 MissRong 阅读(120) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（二）Parquet文件

摘要：Spark 2.x管理与开发-Spark SQL-使用数据源（二）Parquet文件 Parquet文件是一个列式存储的文件，是spark SQL默认存储的数据源。就是普通的文件 Parquet是一个列格式而且用于多个数据处理系统中。 Spark SQL提供支持对于Parquet文件的读写，也就是阅读全文

posted @ 2020-07-26 09:34 MissRong 阅读(180) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数（3）将结果保存为表

摘要：Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数将结果保存为表 usersDF.select($"name").write.saveAsTable("table1") 也可以进行分区、分桶等操作：partitionBy、bucketBy ******* 阅读全文

posted @ 2020-07-26 09:20 MissRong 阅读(158) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数（2）显式指定文件格式：加载json格式+存储模式（Save Modes）

摘要：Spark 2.x管理与开发-Spark SQL-使用数据源（一）通用的Load/Save函数一、显式指定文件格式：加载json格式 1.直接加载：val usersDF = spark.read.load("/root/resources/people.json") 会出错 2.val user 阅读全文

posted @ 2020-07-25 18:03 MissRong 阅读(190) 评论(0) 推荐(0) |

MissRong

现时的明艳，源于曾经奋斗的泪泉和牺牲的血雨。

公告

文章分类 - Spark