随笔分类 - 大数据
kafka相关操作
摘要:kafka安装 下载 wget http://apache.gree.com/apache/kafka/1.0.2/kafka_2.11-1.0.2.tgz tar -zxvf kafka_2.11-1.0.2.tgz -C /usr/local/ mv /usr/local/kafka_2.11-
阅读全文
hbase相关操作
摘要:hbase安装 下载 wget http://apache.gree.com/apache/hbase/hbase-1.2.11/hbase-1.2.11-bin.tar.gz tar -zxvf base-1.2.11-bin.tar.gz -C /usr/local/ mv /ussr/loca
阅读全文
spark Streaming与kafka的集成消费
摘要:Spark 2.3.3 Kafka 2.11-1.0.2 Java jdk1.8.0_191 Hbase 1.2.11
阅读全文
pyspark 使用时环境设置
摘要:1.在脚本中导入pyspark的流程 import os import sys spark_name = os.environ.get('SPARK_HOME',None) # SPARK_HOME即spark的安装目录,不用到bin级别,一般为/usr/local/spark if not spa
阅读全文
spark streaming checkpointing windows
摘要:spark streaming的相关概念: spark的核心是创建一个RDD对象,然后对RDD对象进行计算操作等 streaming可以理解为是 一个连续不断的数据流 ,然后将每个固定时间段里的数据构建成一个RDD,然后就会创一连串的RDD流,这就是DStream(streaming的主要操作对象)
阅读全文
spark-shell 中rdd常用方法
摘要:centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu"
阅读全文
spark 基础
摘要:scala版 ,基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc","
阅读全文