随笔分类 -  spark

摘要:转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的 阅读全文
posted @ 2020-01-03 14:49 xiaolaotou 阅读(849) 评论(0) 推荐(0)
摘要:spark集群搭建: 1、上传scala-2.10.6.tgz到master 2、解压scala-2.10.6.tgz 3、配置环境变量 export SCALA_HOME=/mnt/scala-2.10.6 export PATH=$PATH:$SCALA_HOME/bin 4、分别发送scala 阅读全文
posted @ 2019-09-12 11:23 xiaolaotou 阅读(330) 评论(0) 推荐(0)
摘要:一、组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7hadoop-2.7.7 scala-2.12.8 hadooponwindows-master Python3.7 注意事项: Spark运行在Java 8 +,Python 2.7 + / 阅读全文
posted @ 2019-06-05 12:06 xiaolaotou 阅读(10497) 评论(1) 推荐(0)
摘要:一、Checkpoint相关源码分为四个部分 1、Checkpoint的基本使用:spark_core & spark_streaming 2、初始化的源码 3、Checkpoint的job生成及执行的过程 4、读Checkpoint的过程 二、Checkpoint的基本使用 Checkpoint可 阅读全文
posted @ 2019-06-04 10:11 xiaolaotou 阅读(590) 评论(0) 推荐(0)
摘要:转:https://mp.weixin.qq.com/s/jllAegJMYh_by95FhHt0jA 阅读全文
posted @ 2019-05-15 14:48 xiaolaotou 阅读(434) 评论(0) 推荐(0)
摘要:一、认识Spark sql 1、什么是Sparksql? spark sql是spark的一个模块,主要用于进行结构化数据的处理,它提供的最核心抽象就是DataFrame。 2、SparkSQL的作用? 提供一个编程抽象(DataFrame),并且作为分布式SQL查询引擎 DataFrame:它可以 阅读全文
posted @ 2019-04-08 15:26 xiaolaotou 阅读(606) 评论(0) 推荐(0)
摘要:一、spark的算子分类 转换算子和行动算子 转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行。在spark中每一个算子在计算之后就会产生一个新的RDD。 二、在编写spark程序的时候,会遇到可以通过spark算子完成的操作,同时,scala原生语法也可以完成的操作是 阅读全文
posted @ 2019-04-08 11:21 xiaolaotou 阅读(769) 评论(0) 推荐(0)
摘要:一、如果某一个新的RDD产生的分区数,是从父RDD继承过来的。分区是RDD中的一部分数据(如果只有一个分区的话,那么就是全部) 二、怎么知道某一个 RDD有多少个分区? 三、如何设置RDD的分区? 1、在sparkConf当中设置setMaster中的值,可以改变RDD中的分区数 local 表示采 阅读全文
posted @ 2019-04-08 11:04 xiaolaotou 阅读(368) 评论(0) 推荐(0)
摘要:推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。 在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法: 第一种方式:Receiver模式 又 阅读全文
posted @ 2019-03-14 10:33 xiaolaotou 阅读(8996) 评论(1) 推荐(0)
摘要:简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 一、Receiver方式: 使用kafka的高层次Consumer api来实现的,Receiver从kafka中获取的数据都是存储在spark executor的内 阅读全文
posted @ 2019-03-05 09:53 xiaolaotou 阅读(1572) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-03-04 16:44 xiaolaotou 阅读(1594) 评论(0) 推荐(0)