大数据编程 - 随笔分类 - 中年程序

Spark编程--Kafka安装与配置 (Kafka版本 kafka_2.11_2.2.1)

摘要：1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k 阅读全文

posted @ 2020-03-14 19:03 中年程序阅读(1002) 评论(0) 推荐(0)

Spark编程--Spark SQL DataFrame

摘要：DataFrame与RDD的区别从示例文件people.json中创建DataFrame,保存成csv格式的文件 package com.zwq import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession; 阅读全文

posted @ 2020-03-14 10:17 中年程序阅读(205) 评论(0) 推荐(0)

Spark编程--案例：二次排序

摘要：优先根据第一列值排序，如果第一列值相等，根据第二列值排序 package com.zwq import org.apache.spark.{SparkConf, SparkContext} object SecondarySortApp extends App { val conf = new Sp 阅读全文

posted @ 2020-03-13 16:01 中年程序阅读(301) 评论(0) 推荐(0)

Spark编程--文件数据读写

摘要：把RDD写入到文本文件中分布式文件系统HDFS的数据读写 JSON文件数据读写（注scala 2.11.8运行不了）读写HBase数据 HBase简介从HBase读取 package com.zwq import org.apache.hadoop.hbase.HBaseConfigurat 阅读全文

posted @ 2020-03-10 21:05 中年程序阅读(400) 评论(0) 推荐(0)

Spark编程--键值对RDD转换操作

摘要：reduceByKey() groupByKey() 对具有相同键的值进行分组 package com.zwq import org.apache.spark.{SparkConf, SparkContext} object PairsRDD extends App { val conf = new 阅读全文

posted @ 2020-03-10 17:22 中年程序阅读(343) 评论(0) 推荐(0)

Spark编程--WordCount

摘要：package com.zwq import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf( 阅读全文

posted @ 2020-03-10 16:19 中年程序阅读(165) 评论(0) 推荐(0)

Spark编程--分区

摘要：分区分区的作用和原则分区第一个作用增加程序的并行度实现分布式计算分区第二个作用减少通信开销 spark.default.parallelism Local模式默认为本地机器的CPU 数目 Apache Mesos模式没有设置时，默认分区数目为8 Standalone模式和YARN模式规则阅读全文

posted @ 2020-03-10 14:20 中年程序阅读(269) 评论(0) 推荐(0)

大数据编程学习

随笔分类 - 大数据编程

公告