米兰的小铁將

2019年8月13日

54、Spark Streaming:DStream的transformation操作概览

摘要：一、 transformation操作概览 Transformation Meaning map 对传入的每个元素，返回一个新的元素 flatMap filter 对传入的元素返回true或false，返回的false的元素被过滤掉 union 将两个DStream进行合并 count 返回元素的个阅读全文

posted @ 2019-08-13 15:06 米兰的小铁將阅读(247) 评论(0) 推荐(0)

53、Spark Streaming:输入DStream之Kafka数据源实战

摘要：一、基于Receiver的方式 1、概述 2、java版本二、基于Direct的方式 1、概述 2、java版本阅读全文

posted @ 2019-08-13 14:39 米兰的小铁將阅读(856) 评论(0) 推荐(0)

2019年8月12日

52、Spark Streaming之输入DStream之基础数据源以及基于HDFS的实时wordcount程序

摘要：一、概述1、Socket：之前的wordcount例子，已经演示过了，StreamingContext.socketTextStream()2、HDFS文件基于HDFS文件的实时计算，其实就是，监控一个HDFS目录，只要其中有新文件出现，就实时处理。相当于处理实时的文件流。streamingContext.fileStream(dataDirectory)streamingContext.file... 阅读全文

posted @ 2019-08-12 11:57 米兰的小铁將阅读(522) 评论(0) 推荐(0)

2019年8月9日

51、Spark Streaming之输入DStream和Receiver详解

摘要：输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，该对象是一个关键的组件，用来从数据源接收数据，并将其存储在Spark的内存中，以供后续处理。Spark... 阅读全文

posted @ 2019-08-09 15:51 米兰的小铁將阅读(416) 评论(0) 推荐(0)

50、Spark Streaming实时wordcount程序开发

摘要：一、java版本package cn.spark.study.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.F... 阅读全文

posted @ 2019-08-09 15:39 米兰的小铁將阅读(341) 评论(0) 推荐(0)

2019年8月8日

49、Spark Streaming基本工作原理

摘要：一、大数据实时计算介绍 1、概述 2、图解二、Spark Streaming基本工作原理 1、Spark Streaming简介 2、Spark Streaming基本工作原理 Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core，也就是把阅读全文

posted @ 2019-08-08 14:41 米兰的小铁將阅读(1285) 评论(0) 推荐(0)

http 错误代码表

摘要： 2xx 成功 200 正常；请求已完成。 201 正常；紧接 POST 命令。 202 正常；已接受用于处理，但处理尚未完成。 203 正常；部分信息 — 返回的信息只是一部分。 204 正常；无响应 — 已接收请求，但不存在要回送的信息。 3xx 重定向 301 已移动 — 请求的数据具有新的位置且更改是永久的。 302 已找到 — 请求的数据临时具有不同 UR... 阅读全文

posted @ 2019-08-08 11:00 米兰的小铁將阅读(184) 评论(0) 推荐(0)

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

摘要：一、概述1、需求分析数据格式：日期用户搜索词城市平台版本需求：1、筛选出符合查询条件（城市、平台、版本）的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数，倒序排序4、将数据保存到hive表中###数据 keyword.txt2018-10-1:leo:water:beijing:android:1.02018-10-1:leo1:water:bei... 阅读全文

posted @ 2019-08-08 10:38 米兰的小铁將阅读(669) 评论(0) 推荐(0)

2019年8月7日

47、Spark SQL核心源码深度剖析(DataFrame lazy特性、Optimizer优化策略等)

摘要：一、源码分析1、###入口org.apache.spark.sql/SQLContext.scalasql()方法：/** * 使用Spark执行一条SQL查询语句，将结果作为DataFrame返回，SQL解析使用的方言，可以 * 通过spark.sql.dialect参数，来进行设置 */ def sql(sqlText: String): DataFrame = { ... 阅读全文

posted @ 2019-08-07 14:36 米兰的小铁將阅读(1092) 评论(0) 推荐(0)

46、Spark SQL工作原理剖析以及性能优化

摘要：一、工作原理剖析1、图解二、性能优化1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出明确的列名，比如select name from student... 阅读全文

posted @ 2019-08-07 09:34 米兰的小铁將阅读(1549) 评论(0) 推荐(0)

米兰的小铁將

公告