2020 年 8月随笔档案 - 守护式等待

kafka基本使用

摘要：kafka基本命令行 kafka-topics.sh --zookeeper 192.168.104.91:2181,192.168.104.92:2181,192.168.104.93:2181 --create --topic events --partitions 3 --replicatio 阅读全文

posted @ 2020-08-26 16:28 守护式等待阅读(30) 评论(0) 推荐(0)

Spark 常用的读取数据api

摘要：Spark读取数据API spark.read.format("json").load(path) spark.read.format("text").load(path) spark.read.format("parquet").load(path) spark.read.format("json 阅读全文

posted @ 2020-08-20 13:37 守护式等待阅读(2786) 评论(0) 推荐(0)

Spark DataFrame常用API

摘要：Spark DataFrame常用API package com.imooc.bigdata.chapter04 import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameAPIApp { def main(args: 阅读全文

posted @ 2020-08-20 11:02 守护式等待阅读(746) 评论(0) 推荐(0)

spark 词频统计

摘要：spark 词频统计 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext} /** * 词频统计案例 * 输入：文件 * 需求：统计出文件中每个单词出现的次数 * 1）读每一行数据阅读全文

posted @ 2020-08-20 11:00 守护式等待阅读(452) 评论(0) 推荐(0)

spark-shell和spark-sql

摘要：1.启动spark-shell ./spark-shell --master local[2] --jars /usr/local/jar/mysql-connector-java-5.1.47.jar maste:制定运行模式 local[2]:local本地模式 [2]:2个CUP来运行spar 阅读全文

posted @ 2020-08-20 10:58 守护式等待阅读(682) 评论(0) 推荐(0)

Spark中 RDD、DF、DS的区别与联系

摘要：RDD.DataFrame.DataSet的区别和联系共性: 1）都是spark中得弹性分布式数据集，轻量级 2）都是惰性机制，延迟计算 3）根据内存情况，自动缓存，加快计算速度 4）都有partition分区概念 5）众多相同得算子：map flatmap 等等区别： 1）RDD不支持SQL 阅读全文

posted @ 2020-08-20 10:53 守护式等待阅读(3129) 评论(0) 推荐(0)

SparkSQL连接Hive

摘要：1.将$HIVE_HOME/conf/hive-site.xml文件复制一份到$SPARK_HOME/conf/hive-site.xml cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf 2.直接启动spark-shell就能帮我们自动连接 ./s 阅读全文

posted @ 2020-08-20 09:44 守护式等待阅读(686) 评论(0) 推荐(0)

spark安装 centos7

摘要：1.安装前准备安装scala https://www.cnblogs.com/yoyo1216/p/13365935.html 安装java https://www.cnblogs.com/yoyo1216/p/12668926.html mkdir -p /usr/local/spark/dat 阅读全文

posted @ 2020-08-20 09:29 守护式等待阅读(227) 评论(0) 推荐(0)

IPFS的Python API参考手册

摘要：ipfshttpclient安装 # 下载git上资源 git clone https://github.com/ipfs/py-ipfs-http-client.git cd py-ipfs-http-client # 将ipfs-api-client链接到你的Python路径 vim /etc/ 阅读全文

posted @ 2020-08-12 11:36 守护式等待阅读(2305) 评论(0) 推荐(0)

Scala 数组

摘要：数组 package com.imooc.bigdata.scala_test import Array._ object HelloWord { def main(args: Array[String]) { var myList = Array(1.9, 2.9, 3.4, 3.5) // 定义阅读全文

posted @ 2020-08-05 20:08 守护式等待阅读(130) 评论(0) 推荐(0)

08 2020 档案