上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 40 下一页
摘要: 一、 transformation操作概览 Transformation Meaning map 对传入的每个元素,返回一个新的元素 flatMap filter 对传入的元素返回true或false,返回的false的元素被过滤掉 union 将两个DStream进行合并 count 返回元素的个 阅读全文
posted @ 2019-08-13 15:06 米兰的小铁將 阅读(247) 评论(0) 推荐(0)
摘要: 一、基于Receiver的方式 1、概述 2、java版本 二、基于Direct的方式 1、概述 2、java版本 阅读全文
posted @ 2019-08-13 14:39 米兰的小铁將 阅读(856) 评论(0) 推荐(0)
摘要: 一、概述1、Socket:之前的wordcount例子,已经演示过了,StreamingContext.socketTextStream()2、HDFS文件基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。streamingContext.fileStream(dataDirectory)streamingContext.file... 阅读全文
posted @ 2019-08-12 11:57 米兰的小铁將 阅读(522) 评论(0) 推荐(0)
摘要: 输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中,lines就是一个输入DStream(JavaReceiverInputDStream),代表了从netcat(nc)服务接收到的数据流。除了文件数据流之外,所有的输入DStream都会绑定一个Receiver对象,该对象是一个关键的组件,用来从数据源接收数据,并将其存储在Spark的内存中,以供后续处理。Spark... 阅读全文
posted @ 2019-08-09 15:51 米兰的小铁將 阅读(416) 评论(0) 推荐(0)
摘要: 一、java版本package cn.spark.study.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.F... 阅读全文
posted @ 2019-08-09 15:39 米兰的小铁將 阅读(341) 评论(0) 推荐(0)
摘要: 一、大数据实时计算介绍 1、概述 2、图解 二、Spark Streaming基本工作原理 1、Spark Streaming简介 2、Spark Streaming基本工作原理 Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把 阅读全文
posted @ 2019-08-08 14:41 米兰的小铁將 阅读(1285) 评论(0) 推荐(0)
摘要: 2xx 成功 200 正常;请求已完成。 201 正常;紧接 POST 命令。 202 正常;已接受用于处理,但处理尚未完成。 203 正常;部分信息 — 返回的信息只是一部分。 204 正常;无响应 — 已接收请求,但不存在要回送的信息。 3xx 重定向 301 已移动 — 请求的数据具有新的位置且更改是永久的。 302 已找到 — 请求的数据临时具有不同 UR... 阅读全文
posted @ 2019-08-08 11:00 米兰的小铁將 阅读(184) 评论(0) 推荐(0)
摘要: 一、概述1、需求分析数据格式:日期 用户 搜索词 城市 平台 版本需求:1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序4、将数据保存到hive表中###数据 keyword.txt2018-10-1:leo:water:beijing:android:1.02018-10-1:leo1:water:bei... 阅读全文
posted @ 2019-08-08 10:38 米兰的小铁將 阅读(669) 评论(0) 推荐(0)
摘要: 一、源码分析1、###入口org.apache.spark.sql/SQLContext.scalasql()方法:/** * 使用Spark执行一条SQL查询语句,将结果作为DataFrame返回,SQL解析使用的方言,可以 * 通过spark.sql.dialect参数,来进行设置 */ def sql(sqlText: String): DataFrame = { ... 阅读全文
posted @ 2019-08-07 14:36 米兰的小铁將 阅读(1092) 评论(0) 推荐(0)
摘要: 一、工作原理剖析1、图解二、性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如select name from student... 阅读全文
posted @ 2019-08-07 09:34 米兰的小铁將 阅读(1549) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 40 下一页