随笔分类 -  大数据

kafka相关操作
摘要:kafka安装 下载 wget http://apache.gree.com/apache/kafka/1.0.2/kafka_2.11-1.0.2.tgz tar -zxvf kafka_2.11-1.0.2.tgz -C /usr/local/ mv /usr/local/kafka_2.11- 阅读全文
posted @ 2019-08-06 20:42 庭明 阅读(232) 评论(0) 推荐(0)
hbase相关操作
摘要:hbase安装 下载 wget http://apache.gree.com/apache/hbase/hbase-1.2.11/hbase-1.2.11-bin.tar.gz tar -zxvf base-1.2.11-bin.tar.gz -C /usr/local/ mv /ussr/loca 阅读全文
posted @ 2019-08-06 19:46 庭明 阅读(226) 评论(0) 推荐(0)
spark Streaming与kafka的集成消费
摘要:Spark 2.3.3 Kafka 2.11-1.0.2 Java jdk1.8.0_191 Hbase 1.2.11 阅读全文
posted @ 2019-08-05 17:11 庭明 阅读(153) 评论(0) 推荐(0)
pyspark 使用时环境设置
摘要:1.在脚本中导入pyspark的流程 import os import sys spark_name = os.environ.get('SPARK_HOME',None) # SPARK_HOME即spark的安装目录,不用到bin级别,一般为/usr/local/spark if not spa 阅读全文
posted @ 2019-08-05 16:05 庭明 阅读(3267) 评论(0) 推荐(0)
spark streaming checkpointing windows
摘要:spark streaming的相关概念: spark的核心是创建一个RDD对象,然后对RDD对象进行计算操作等 streaming可以理解为是 一个连续不断的数据流 ,然后将每个固定时间段里的数据构建成一个RDD,然后就会创一连串的RDD流,这就是DStream(streaming的主要操作对象) 阅读全文
posted @ 2019-07-29 15:03 庭明 阅读(476) 评论(0) 推荐(0)
spark-shell 中rdd常用方法
摘要:centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu" 阅读全文
posted @ 2019-07-04 20:43 庭明 阅读(523) 评论(0) 推荐(0)
spark 基础
摘要:scala版 ,基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc"," 阅读全文
posted @ 2019-06-28 19:23 庭明 阅读(178) 评论(0) 推荐(0)