随笔分类 -  Spark 学习

摘要:day7 hadoop 离线数据分析 批量; spark 【spark】 * 环境配置: 安装spark - Local本地模式 ok * spark学习 @Scala环境: 1 shell交互环境 启动:spark-shell;(默认进入且自带): 命令学习: 实验案例: 1 wordcount: textFile("input"):读取本地文件input文件夹数据; flatMap(_.spl 阅读全文
posted @ 2019-09-16 10:14 丨Kouch 阅读(182) 评论(0) 推荐(0)
摘要:RDD:分布式对象集合; 解决了:减少中间计算结果处理所需的开销 数据存在内存,提供一个通用的抽象的数据结构 惰性求值 DataFrame:分布式Row对象集合 服务于:SparkSQL 阅读全文
posted @ 2019-03-26 21:24 丨Kouch 阅读(127) 评论(0) 推荐(0)
摘要:形式:(参数)=> 表达式 [ 一种匿名函数 ] 解:x=输入参数,“=>” 右边是表达式(处理参数); x._2 : x变为(**,x,**...)元组的第二个元素; map ():将每一条输入参数映射为一个新的对象,在spark中会生成新的RDD,如下 flatmap ()对比 解:先 line 阅读全文
posted @ 2019-03-15 10:47 丨Kouch 阅读(3366) 评论(0) 推荐(0)
摘要:>>非集成: 环境需要 * spark 2.4.0 * scala 2.11.12 * sbt (打包) 开发过程 1、shell命令下创建项目目录结构 *****/ project / src / main / scala -> . / ClassName.scala ( touch + gedi 阅读全文
posted @ 2019-03-13 20:53 丨Kouch 阅读(149) 评论(0) 推荐(0)
摘要:【基本操作】 1* 从文件系统中加载数据创建RDD -> 本地文件系统 ->HDFS 2* 转换操作 [ 会创建新的RDD ,没有真正计算 ] >> filter() >> map() >> flatMap() >> groupByKey() >> reduceByKey() 3* 行动操作 [] 阅读全文
posted @ 2019-03-13 20:28 丨Kouch 阅读(127) 评论(0) 推荐(0)
摘要:spark shell 交互 启动:bin 目录下 ./spark-shell --master local [ ×× ] --jars ×××.jar 进入[ >> scala ]交互[ spark 由scala开发 ] 退出:quit / ctrl+D 编程环境 [ 使用spark API] 1 阅读全文
posted @ 2019-03-11 22:04 丨Kouch 阅读(140) 评论(0) 推荐(0)
摘要:spark-shell 本地文件系统数据读写 [ file:// ] 读取 :sc.textFile (" ****") 写入:saveAsTextFile ("****") HDFS文件的读写 [ hdfs:// ] 读取 :sc.textFile (" ****") 写入:saveAsTextF 阅读全文
posted @ 2019-03-10 14:15 丨Kouch 阅读(441) 评论(0) 推荐(0)
摘要:简单步骤: 前提:hadoop 环境搭建(我的是伪分布式) 1、官网下载spark 2、spark部署(单机模式): (1)解压 (2)移动文件到自定义目录下(同时修改文件名-原来的名字太长) (3)修改 !配置文件:spark-env.sh [ spark与hdfs可以数据交互 ] 3、检测spa 阅读全文
posted @ 2019-03-02 17:25 丨Kouch 阅读(407) 评论(0) 推荐(0)