摘要: 把RDD写入到文本文件中 分布式文件系统HDFS的数据读写 JSON文件数据读写 (注scala 2.11.8运行不了) 读写HBase数据 HBase简介 从HBase读取 package com.zwq import org.apache.hadoop.hbase.HBaseConfigurat 阅读全文
posted @ 2020-03-10 21:05 中年程序 阅读(400) 评论(0) 推荐(0)
摘要: reduceByKey() groupByKey() 对具有相同键的值进行分组 package com.zwq import org.apache.spark.{SparkConf, SparkContext} object PairsRDD extends App { val conf = new 阅读全文
posted @ 2020-03-10 17:22 中年程序 阅读(343) 评论(0) 推荐(0)
摘要: package com.zwq import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf( 阅读全文
posted @ 2020-03-10 16:19 中年程序 阅读(165) 评论(0) 推荐(0)
摘要: 分区 分区的作用和原则 分区第一个作用增加程序的并行度实现分布式计算 分区第二个作用减少通信开销 spark.default.parallelism Local模式 默认为本地机器的CPU 数目 Apache Mesos模式 没有设置时,默认分区数目为8 Standalone模式和YARN模式 规则 阅读全文
posted @ 2020-03-10 14:20 中年程序 阅读(269) 评论(0) 推荐(0)