摘要:
DataFrame和parquet文件以下spark表示SparkSession对象df表示DataFrame对象从parquet文件加载DataFrame:val df = spark.read.parquet("input_file_path.parqu... 阅读全文
posted @ 2019-01-04 17:25
xuejianbest
阅读(1310)
评论(0)
推荐(0)
摘要:
使用数据透视函数pivot:val list = List( (2017, 1, 100), (2017, 1, 50), (2017, 2, 100), (2017, 3, 50), (2018, 2, 200), (2018, 2,... 阅读全文
posted @ 2019-01-04 17:25
xuejianbest
阅读(1500)
评论(0)
推荐(0)
摘要:
spark2+引入了SparkSession,封装了1.0的SparkContext和SqlContext。在spark-shell中有个spark变量是默认的SparkSession对象。读取和保存举例:spark表示SparkSession对象ds表示D... 阅读全文
posted @ 2019-01-04 17:25
xuejianbest
阅读(514)
评论(0)
推荐(0)
摘要:
代码:val file = "/root/dir/jhzf.properties"val tableName = "spark_timetime"import java.util.Propertiesval properties = new Properti... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(2113)
评论(0)
推荐(0)
摘要:
两个概念:分区partition分区器partitionerpartitionRDD有个partitions方法:final def partitions: Array[Partition],能够返回一个数组,数组元素是RDD的partition。parti... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(4069)
评论(0)
推荐(1)
摘要:
spark-shell或spark-submit,载入jdbc的jar包:--jars /mysql-connector-java-*-bin.jarspark使用jdbc读写数据库://读数据库import java.util.Propertiesval ... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(774)
评论(0)
推荐(0)
摘要:
spark-shell运行,若要载入hbase的jar包:export SPARK_CLASSPATH=/opt/hbase-1.2.4/lib/*获取hbase中列簇中的列值:import org.apache.spark._import org.apac... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(867)
评论(0)
推荐(0)
摘要:
使用:$spark-submit --helpUsage: spark-submit [options] [app arguments]举例:spark-submit --master yarn-cluster \--class Tkmeans \--co... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(1086)
评论(0)
推荐(0)
摘要:
本文基于spark-1.6.2-bin-hadoop2.6提交到本地程序中指定的参数(param)和spark-submit提交时参数配置一致:import org.apache.spark.deploy.SparkSubmit;public class D... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(3931)
评论(0)
推荐(0)
摘要:
spark可以不进行任何配置,直接运行,这时候spark像一个java程序一样,是直接运行在VM中的。spark还支持提交任务到YARN管理的集群,称为spark on yarn模式。spark还支持Mesos管理的集群,Mesos和YARN一样都是管理集群... 阅读全文
posted @ 2019-01-04 17:24
xuejianbest
阅读(1311)
评论(0)
推荐(0)

浙公网安备 33010602011771号