随笔分类 -  大数据开发-spark

摘要:案例1:使用Java实现spark的wordCount 案例需求: 单词计数 第一步:创建maven工程,引入依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11< 阅读全文
posted @ 2020-08-24 03:00 Whatever_It_Takes 阅读(358) 评论(0) 推荐(0)
摘要:🌈RDD的算子 算子可以理解成RDD的一些方法。 RDD的算子可以分为2类: 1、transformation(转换) 根据已经存在的rdd转换生成一个新的rdd, 它是延迟加载,它不会立即执行 例如: map / flatMap / reduceByKey 等 2、action (动作) 它会真 阅读全文
posted @ 2020-08-24 02:56 Whatever_It_Takes 阅读(989) 评论(0) 推荐(0)
摘要:🌈RDD RDD是什么 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD是spark core的底层核心。 Dataset:就是一个集合,存储很多数据. Distr 阅读全文
posted @ 2020-08-24 02:49 Whatever_It_Takes 阅读(1191) 评论(0) 推荐(1)
摘要:通过IDEA开发spark程序 构建maven工程 创建src/main/scala 和 src/test/scala 目录 添加pom依赖 说明: 创建maven工程后,设定maven为自己安装的maven,并在确保settings.xml里面设置了镜像地址为阿里云 如果下载不下来scala-ma 阅读全文
posted @ 2020-08-24 02:44 Whatever_It_Takes 阅读(257) 评论(0) 推荐(0)
摘要:spark-shell使用 运行spark-shell --master local[N] 读取本地文件 选项说明: local 表示程序在本地进行计算,跟spark集群目前没有任何关系 N 它是一个正整数,表示使用N个线程参与任务计算 local[N] 表示本地采用N个线程计算任务 spark-s 阅读全文
posted @ 2020-08-24 01:48 Whatever_It_Takes 阅读(429) 评论(0) 推荐(0)
摘要:初识spark程序 普通模式提交 (指定活着的master地址) 指定的必须是alive状态的Master地址,否则会执行失败。 cd /kkb/install/spark bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ 阅读全文
posted @ 2020-08-24 01:46 Whatever_It_Takes 阅读(210) 评论(0) 推荐(0)
摘要:spark集群安装部署 搭建spark集群要事先搭建好zookeeper集群,spark会依赖zookeeper集群来实现Master的高可用。 第一步:下载安装包 下载安装包:spark-2.3.3-bin-hadoop2.7.tgz 下载地址: https://archive.apache.or 阅读全文
posted @ 2020-08-24 01:42 Whatever_It_Takes 阅读(944) 评论(0) 推荐(0)
摘要:spark是什么 "Apache Spark" is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP la 阅读全文
posted @ 2020-08-24 01:37 Whatever_It_Takes 阅读(1522) 评论(0) 推荐(0)