Spark 学习 - 随笔分类 - 丨Kouch

spark笔记01

摘要：day7 hadoop 离线数据分析批量； spark 【spark】 * 环境配置：安装spark - Local本地模式 ok * spark学习 @Scala环境： 1 shell交互环境启动：spark-shell；（默认进入且自带）：命令学习：实验案例： 1 wordcount： textFile("input")：读取本地文件input文件夹数据； flatMap(_.spl 阅读全文

posted @ 2019-09-16 10:14 丨Kouch 阅读(182) 评论(0) 推荐(0)

RDD与DataFrame

摘要：RDD：分布式对象集合；解决了：减少中间计算结果处理所需的开销数据存在内存，提供一个通用的抽象的数据结构惰性求值 DataFrame：分布式Row对象集合服务于：SparkSQL 阅读全文

posted @ 2019-03-26 21:24 丨Kouch 阅读(127) 评论(0) 推荐(0)

scala lambda 表达式 & spark RDD函数操作

摘要：形式：（参数）=> 表达式 [ 一种匿名函数 ] 解：x=输入参数，“=>” 右边是表达式（处理参数）； x._2 ： x变为（**，x，**...）元组的第二个元素； map （）：将每一条输入参数映射为一个新的对象，在spark中会生成新的RDD，如下 flatmap （）对比解：先 line 阅读全文

posted @ 2019-03-15 10:47 丨Kouch 阅读(3366) 评论(0) 推荐(0)

spark(3) - scala独立编程

摘要：>>非集成：环境需要 * spark 2.4.0 * scala 2.11.12 * sbt （打包）开发过程 1、shell命令下创建项目目录结构 *****/ project / src / main / scala -> . / ClassName.scala （ touch + gedi 阅读全文

posted @ 2019-03-13 20:53 丨Kouch 阅读(149) 评论(0) 推荐(0)

spark(2.2) - spark-shell RDD编程

摘要：【基本操作】 1* 从文件系统中加载数据创建RDD -> 本地文件系统 ->HDFS 2* 转换操作 [ 会创建新的RDD ，没有真正计算 ] >> filter() >> map() >> flatMap() >> groupByKey() >> reduceByKey() 3* 行动操作 [] 阅读全文

posted @ 2019-03-13 20:28 丨Kouch 阅读(127) 评论(0) 推荐(0)

spark 熟悉过程

摘要：spark shell 交互启动：bin 目录下 ./spark-shell --master local [ ×× ] --jars ×××.jar 进入[ >> scala ]交互[ spark 由scala开发 ] 退出：quit / ctrl+D 编程环境 [ 使用spark API] 1 阅读全文

posted @ 2019-03-11 22:04 丨Kouch 阅读(140) 评论(0) 推荐(0)

spark(2.1) - spark-shell 下文件系统的数据读写

摘要：spark-shell 本地文件系统数据读写 [ file:// ] 读取：sc.textFile (" ****") 写入：saveAsTextFile ("****") HDFS文件的读写 [ hdfs:// ] 读取：sc.textFile (" ****") 写入：saveAsTextF 阅读全文

posted @ 2019-03-10 14:15 丨Kouch 阅读(441) 评论(0) 推荐(0)

spark(1) - ubuntu 下 spark 安装

摘要：简单步骤：前提：hadoop 环境搭建（我的是伪分布式） 1、官网下载spark 2、spark部署（单机模式）：（1）解压（2）移动文件到自定义目录下（同时修改文件名-原来的名字太长）（3）修改！配置文件：spark-env.sh [ spark与hdfs可以数据交互 ] 3、检测spa 阅读全文

posted @ 2019-03-02 17:25 丨Kouch 阅读(407) 评论(0) 推荐(0)

HELLO WORLD

[ 0_o o_O ]

随笔分类 - Spark 学习

公告