随笔分类 - spark
摘要:转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的
        阅读全文
                
摘要:spark集群搭建:	1、上传scala-2.10.6.tgz到master	2、解压scala-2.10.6.tgz	3、配置环境变量 export SCALA_HOME=/mnt/scala-2.10.6 export PATH=$PATH:$SCALA_HOME/bin	4、分别发送scala
        阅读全文
                
摘要:一、组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7hadoop-2.7.7 scala-2.12.8 hadooponwindows-master Python3.7 注意事项: Spark运行在Java 8 +,Python 2.7 + / 
        阅读全文
                
摘要:一、Checkpoint相关源码分为四个部分 1、Checkpoint的基本使用:spark_core & spark_streaming 2、初始化的源码 3、Checkpoint的job生成及执行的过程 4、读Checkpoint的过程 二、Checkpoint的基本使用 Checkpoint可
        阅读全文
                
摘要:转:https://mp.weixin.qq.com/s/jllAegJMYh_by95FhHt0jA
        阅读全文
                
摘要:一、认识Spark sql 1、什么是Sparksql? spark sql是spark的一个模块,主要用于进行结构化数据的处理,它提供的最核心抽象就是DataFrame。 2、SparkSQL的作用? 提供一个编程抽象(DataFrame),并且作为分布式SQL查询引擎 DataFrame:它可以
        阅读全文
                
摘要:一、spark的算子分类 转换算子和行动算子 转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行。在spark中每一个算子在计算之后就会产生一个新的RDD。 二、在编写spark程序的时候,会遇到可以通过spark算子完成的操作,同时,scala原生语法也可以完成的操作是
        阅读全文
                
摘要:一、如果某一个新的RDD产生的分区数,是从父RDD继承过来的。分区是RDD中的一部分数据(如果只有一个分区的话,那么就是全部) 二、怎么知道某一个 RDD有多少个分区? 三、如何设置RDD的分区? 1、在sparkConf当中设置setMaster中的值,可以改变RDD中的分区数 local 表示采
        阅读全文
                
摘要:推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。 在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法: 第一种方式:Receiver模式 又
        阅读全文
                
摘要:简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 一、Receiver方式: 使用kafka的高层次Consumer api来实现的,Receiver从kafka中获取的数据都是存储在spark executor的内
        阅读全文
                
 
                    
                
 浙公网安备 33010602011771号
浙公网安备 33010602011771号