大数据 - 随笔分类 - 庭明

kafka相关操作

摘要：kafka安装下载 wget http://apache.gree.com/apache/kafka/1.0.2/kafka_2.11-1.0.2.tgz tar -zxvf kafka_2.11-1.0.2.tgz -C /usr/local/ mv /usr/local/kafka_2.11- 阅读全文

posted @ 2019-08-06 20:42 庭明阅读(232) 评论(0) 推荐(0)

hbase相关操作

摘要：hbase安装下载 wget http://apache.gree.com/apache/hbase/hbase-1.2.11/hbase-1.2.11-bin.tar.gz tar -zxvf base-1.2.11-bin.tar.gz -C /usr/local/ mv /ussr/loca 阅读全文

posted @ 2019-08-06 19:46 庭明阅读(226) 评论(0) 推荐(0)

spark Streaming与kafka的集成消费

摘要：Spark 2.3.3 Kafka 2.11-1.0.2 Java jdk1.8.0_191 Hbase 1.2.11 阅读全文

posted @ 2019-08-05 17:11 庭明阅读(153) 评论(0) 推荐(0)

pyspark 使用时环境设置

摘要：1.在脚本中导入pyspark的流程 import os import sys spark_name = os.environ.get('SPARK_HOME',None) # SPARK_HOME即spark的安装目录，不用到bin级别，一般为/usr/local/spark if not spa 阅读全文

posted @ 2019-08-05 16:05 庭明阅读(3267) 评论(0) 推荐(0)

spark streaming checkpointing windows

摘要：spark streaming的相关概念： spark的核心是创建一个RDD对象，然后对RDD对象进行计算操作等 streaming可以理解为是一个连续不断的数据流，然后将每个固定时间段里的数据构建成一个RDD，然后就会创一连串的RDD流，这就是DStream(streaming的主要操作对象）阅读全文

posted @ 2019-07-29 15:03 庭明阅读(476) 评论(0) 推荐(0)

spark-shell 中rdd常用方法

摘要：centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu" 阅读全文

posted @ 2019-07-04 20:43 庭明阅读(523) 评论(0) 推荐(0)

spark 基础

摘要：scala版，基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc"," 阅读全文

posted @ 2019-06-28 19:23 庭明阅读(178) 评论(0) 推荐(0)

随笔分类 - 大数据

公告