spark - 随笔分类 - xiaolaotou

Spark Streaming和Kafka整合是如何保证数据零丢失

摘要：转载：https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件： 1、输入的数据来自可靠的数据源和可靠的阅读全文

posted @ 2020-01-03 14:49 xiaolaotou 阅读(849) 评论(0) 推荐(0)

十、scala、spark集群搭建

摘要：spark集群搭建： 1、上传scala-2.10.6.tgz到master 2、解压scala-2.10.6.tgz 3、配置环境变量 export SCALA_HOME=/mnt/scala-2.10.6 export PATH=$PATH:$SCALA_HOME/bin 4、分别发送scala 阅读全文

posted @ 2019-09-12 11:23 xiaolaotou 阅读(330) 评论(0) 推荐(0)

window10搭建pyspark（超级详细）

摘要：一、组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7hadoop-2.7.7 scala-2.12.8 hadooponwindows-master Python3.7 注意事项： Spark运行在Java 8 +，Python 2.7 + / 阅读全文

posted @ 2019-06-05 12:06 xiaolaotou 阅读(10497) 评论(1) 推荐(0)

Spark的checkpoint源码讲解

摘要：一、Checkpoint相关源码分为四个部分 1、Checkpoint的基本使用:spark_core & spark_streaming 2、初始化的源码 3、Checkpoint的job生成及执行的过程 4、读Checkpoint的过程二、Checkpoint的基本使用 Checkpoint可阅读全文

posted @ 2019-06-04 10:11 xiaolaotou 阅读(590) 评论(0) 推荐(0)

Spark Streaming 与Filnk对比分析

摘要：转：https://mp.weixin.qq.com/s/jllAegJMYh_by95FhHt0jA 阅读全文

posted @ 2019-05-15 14:48 xiaolaotou 阅读(434) 评论(0) 推荐(0)

Spark sql 简单使用

摘要：一、认识Spark sql 1、什么是Sparksql? spark sql是spark的一个模块，主要用于进行结构化数据的处理，它提供的最核心抽象就是DataFrame。 2、SparkSQL的作用？提供一个编程抽象（DataFrame），并且作为分布式SQL查询引擎 DataFrame：它可以阅读全文

posted @ 2019-04-08 15:26 xiaolaotou 阅读(606) 评论(0) 推荐(0)

Spark算子使用

摘要：一、spark的算子分类转换算子和行动算子转换算子：在使用的时候，spark是不会真正执行，直到需要行动算子之后才会执行。在spark中每一个算子在计算之后就会产生一个新的RDD。二、在编写spark程序的时候，会遇到可以通过spark算子完成的操作，同时，scala原生语法也可以完成的操作是阅读全文

posted @ 2019-04-08 11:21 xiaolaotou 阅读(769) 评论(0) 推荐(0)

Spark分区

摘要：一、如果某一个新的RDD产生的分区数，是从父RDD继承过来的。分区是RDD中的一部分数据（如果只有一个分区的话，那么就是全部）二、怎么知道某一个 RDD有多少个分区？三、如何设置RDD的分区？ 1、在sparkConf当中设置setMaster中的值，可以改变RDD中的分区数 local 表示采阅读全文

posted @ 2019-04-08 11:04 xiaolaotou 阅读(368) 评论(0) 推荐(0)

spark-streaming-连接kafka的两种方式

摘要：推荐系统的在线部分往往使用spark-streaming实现，这是一个很重要的环节。在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到，说明这是重点，下面为大家介绍一下这两种方法：第一种方式：Receiver模式又阅读全文

posted @ 2019-03-14 10:33 xiaolaotou 阅读(8996) 评论(1) 推荐(0)

spark-streaming获取kafka数据的两种方式

摘要：简单理解为：Receiver方式是通过zookeeper来连接kafka队列，Direct方式是直接连接到kafka的节点上获取数据一、Receiver方式：使用kafka的高层次Consumer api来实现的，Receiver从kafka中获取的数据都是存储在spark executor的内阅读全文

posted @ 2019-03-05 09:53 xiaolaotou 阅读(1572) 评论(0) 推荐(0)

Spark RDD批量写入Hbase

摘要：阅读全文

posted @ 2019-03-04 16:44 xiaolaotou 阅读(1594) 评论(0) 推荐(0)

xiaolaotou

随笔分类 - spark

公告