kafka基本使用
摘要:kafka基本命令行 kafka-topics.sh --zookeeper 192.168.104.91:2181,192.168.104.92:2181,192.168.104.93:2181 --create --topic events --partitions 3 --replicatio
阅读全文
Spark 常用的读取数据api
摘要:Spark读取数据API spark.read.format("json").load(path) spark.read.format("text").load(path) spark.read.format("parquet").load(path) spark.read.format("json
阅读全文
Spark DataFrame常用API
摘要:Spark DataFrame常用API package com.imooc.bigdata.chapter04 import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameAPIApp { def main(args:
阅读全文
spark 词频统计
摘要:spark 词频统计 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext} /** * 词频统计案例 * 输入:文件 * 需求:统计出文件中每个单词出现的次数 * 1)读每一行数据
阅读全文
spark-shell和spark-sql
摘要:1.启动spark-shell ./spark-shell --master local[2] --jars /usr/local/jar/mysql-connector-java-5.1.47.jar maste:制定运行模式 local[2]:local本地模式 [2]:2个CUP来运行spar
阅读全文
Spark中 RDD、DF、DS的区别与联系
摘要:RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL
阅读全文
SparkSQL连接Hive
摘要:1.将$HIVE_HOME/conf/hive-site.xml文件复制一份到$SPARK_HOME/conf/hive-site.xml cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf 2.直接启动spark-shell就能帮我们自动连接 ./s
阅读全文
spark安装 centos7
摘要:1.安装前准备 安装scala https://www.cnblogs.com/yoyo1216/p/13365935.html 安装java https://www.cnblogs.com/yoyo1216/p/12668926.html mkdir -p /usr/local/spark/dat
阅读全文
IPFS的Python API参考手册
摘要:ipfshttpclient安装 # 下载git上资源 git clone https://github.com/ipfs/py-ipfs-http-client.git cd py-ipfs-http-client # 将ipfs-api-client链接到你的Python路径 vim /etc/
阅读全文
Scala 数组
摘要:数组 package com.imooc.bigdata.scala_test import Array._ object HelloWord { def main(args: Array[String]) { var myList = Array(1.9, 2.9, 3.4, 3.5) // 定义
阅读全文