xuejianbest

摘要： DataFrame和parquet文件以下spark表示SparkSession对象df表示DataFrame对象从parquet文件加载DataFrame：val df = spark.read.parquet("input_file_path.parqu... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(1310) 评论(0) 推荐(0)

摘要：使用数据透视函数pivot：val list = List( (2017, 1, 100), (2017, 1, 50), (2017, 2, 100), (2017, 3, 50), (2018, 2, 200), (2018, 2,... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(1500) 评论(0) 推荐(0)

摘要： spark2+引入了SparkSession，封装了1.0的SparkContext和SqlContext。在spark-shell中有个spark变量是默认的SparkSession对象。读取和保存举例：spark表示SparkSession对象ds表示D... 阅读全文

posted @ 2019-01-04 17:25 xuejianbest 阅读(514) 评论(0) 推荐(0)

摘要：代码：val file = "/root/dir/jhzf.properties"val tableName = "spark_timetime"import java.util.Propertiesval properties = new Properti... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(2113) 评论(0) 推荐(0)

摘要：两个概念：分区partition分区器partitionerpartitionRDD有个partitions方法：final def partitions: Array[Partition]，能够返回一个数组，数组元素是RDD的partition。parti... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(4069) 评论(0) 推荐(1)

摘要： spark-shell或spark-submit，载入jdbc的jar包：--jars /mysql-connector-java-*-bin.jarspark使用jdbc读写数据库：//读数据库import java.util.Propertiesval ... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(774) 评论(0) 推荐(0)

摘要： spark-shell运行，若要载入hbase的jar包：export SPARK_CLASSPATH=/opt/hbase-1.2.4/lib/*获取hbase中列簇中的列值：import org.apache.spark._import org.apac... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(867) 评论(0) 推荐(0)

摘要：使用：$spark-submit --helpUsage: spark-submit [options] [app arguments]举例：spark-submit --master yarn-cluster \--class Tkmeans \--co... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(1086) 评论(0) 推荐(0)

摘要：本文基于spark-1.6.2-bin-hadoop2.6提交到本地程序中指定的参数（param）和spark-submit提交时参数配置一致：import org.apache.spark.deploy.SparkSubmit;public class D... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(3931) 评论(0) 推荐(0)

摘要： spark可以不进行任何配置，直接运行，这时候spark像一个java程序一样，是直接运行在VM中的。spark还支持提交任务到YARN管理的集群，称为spark on yarn模式。spark还支持Mesos管理的集群，Mesos和YARN一样都是管理集群... 阅读全文

posted @ 2019-01-04 17:24 xuejianbest 阅读(1311) 评论(0) 推荐(0)