文章分类 -  Spark

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(二)离散流(DStreams):Discretized Streams 把连续的数据流变成不连续的RDD 本质上Spark Streaming依然是离线计算 DStream是RDD的集合,包含不连续的R 阅读全文

posted @ 2020-08-06 16:35 MissRong 阅读(100) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(一)StreamingContext对象详解 一、初始化StreamingContext 1.方式一:从SparkConf对象中创建 2.方式二:从一个现有的SparkContext实例中创建 二、程序 阅读全文

posted @ 2020-08-06 16:29 MissRong 阅读(373) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础(三)【开发自己的NetworkWordCount 】 (一定注意): val sparkConf = new SparkConf().setAppName("NetworkWordCount").set 阅读全文

posted @ 2020-08-06 16:17 MissRong 阅读(72) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础(二)第一个小案例:NetworkWordCount (1)由于在本案例中需要使用netcat网络工具,所以需要先安装。 (2)启动netcat数据流服务器,并监听端口:1234 命令:nc -l -p 阅读全文

posted @ 2020-08-06 15:56 MissRong 阅读(121) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础(一) 1、Spark Streaming简介 官网:http://spark.apache.org/streaming/ Spark Streaming makes it easy to build s 阅读全文

posted @ 2020-08-06 15:44 MissRong 阅读(138) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】(三)UDF和UDAF* UDF-UserDefineFunction:每条数据都会过一下UDF。 UDAF-UserDefineAggregateFunction :UDAF是在分组里面使用的,只有加了group by之后 阅读全文

posted @ 2020-08-02 18:28 MissRong 阅读(138) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】(二)多表查询* 1.将三张表合并实现查询 Scala代码: package sqlExamples import org.apache.spark.sql.SparkSession import org.apache.lo 阅读全文

posted @ 2020-08-01 12:22 MissRong 阅读(544) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【Spark SQL案例】(一)单表查询* 1.读取并打印指定文件的所有数据 Scala代码: package sqlExamples import org.apache.spark.sql.SparkSession import org.apach 阅读全文

posted @ 2020-08-01 12:10 MissRong 阅读(166) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-性能优化(二)性能优化相关参数 一、将数据缓存到内存中的相关优化参数 spark.sql.inMemoryColumnarStorage.compressed 默认为 true Spark SQL 将会基于统计信息自动地为每一列选择一种压缩编码方式。 阅读全文

posted @ 2020-08-01 11:05 MissRong 阅读(239) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-性能优化(一)在内存中缓存数据(最常用最有效) 性能调优主要是将数据放入内存中操作。 通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName 阅读全文

posted @ 2020-07-30 00:07 MissRong 阅读(1203) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】(四)从Hive里读取数据并将结果存到MySQL中 1)启动进程 启动Zookeeper集群、启动Hadoop-HA 启动Hive-HA的Server: [root@bigdata111 bin]# ./hi 阅读全文

posted @ 2020-07-28 19:44 MissRong 阅读(421) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】(三)将数据保存到数据库 测试数据: Scala代码: package sqlExamples /** * 将数据存到MySQL-JDBC */ import org.apache.spark.sql.Spa 阅读全文

posted @ 2020-07-28 19:35 MissRong 阅读(354) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】(二)使用case class 准备的数据: Scala代码: package sqlExamples import org.apache.spark.sql.SparkSession /** * 创建Dat 阅读全文

posted @ 2020-07-28 19:26 MissRong 阅读(183) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-【在IDEA中开发Spark SQL程序】(一)指定Schema格式 准备的数据: Scala代码: package sqlExamples /** * 创建DataFrame(一) * 通过:使用StructType的方式 */ import or 阅读全文

posted @ 2020-07-28 19:21 MissRong 阅读(237) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-07-26 19:52 MissRong 阅读(0) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-07-26 10:03 MissRong 阅读(0) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-使用数据源(三)JSON Datasets Spark SQL能自动解析JSON数据集的Schema,读取JSON数据集为DataFrame格式。 读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的R 阅读全文

posted @ 2020-07-26 09:40 MissRong 阅读(120) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-使用数据源(二)Parquet文件 Parquet文件是一个列式存储的文件,是spark SQL默认存储的数据源。 就是普通的文件 Parquet是一个列格式而且用于多个数据处理系统中。 Spark SQL提供支持对于Parquet文件的读写,也就是 阅读全文

posted @ 2020-07-26 09:34 MissRong 阅读(180) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-使用数据源(一)通用的Load/Save函数 将结果保存为表 usersDF.select($"name").write.saveAsTable("table1") 也可以进行分区、分桶等操作:partitionBy、bucketBy ******* 阅读全文

posted @ 2020-07-26 09:20 MissRong 阅读(158) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark SQL-使用数据源(一)通用的Load/Save函数 一、显式指定文件格式:加载json格式 1.直接加载:val usersDF = spark.read.load("/root/resources/people.json") 会出错 2.val user 阅读全文

posted @ 2020-07-25 18:03 MissRong 阅读(190) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3