随笔分类 - Spark 学习
摘要:day7 hadoop 离线数据分析 批量; spark 【spark】 * 环境配置: 安装spark - Local本地模式 ok * spark学习 @Scala环境: 1 shell交互环境 启动:spark-shell;(默认进入且自带): 命令学习: 实验案例: 1 wordcount: textFile("input"):读取本地文件input文件夹数据; flatMap(_.spl
阅读全文
摘要:RDD:分布式对象集合; 解决了:减少中间计算结果处理所需的开销 数据存在内存,提供一个通用的抽象的数据结构 惰性求值 DataFrame:分布式Row对象集合 服务于:SparkSQL
阅读全文
摘要:形式:(参数)=> 表达式 [ 一种匿名函数 ] 解:x=输入参数,“=>” 右边是表达式(处理参数); x._2 : x变为(**,x,**...)元组的第二个元素; map ():将每一条输入参数映射为一个新的对象,在spark中会生成新的RDD,如下 flatmap ()对比 解:先 line
阅读全文
摘要:>>非集成: 环境需要 * spark 2.4.0 * scala 2.11.12 * sbt (打包) 开发过程 1、shell命令下创建项目目录结构 *****/ project / src / main / scala -> . / ClassName.scala ( touch + gedi
阅读全文
摘要:【基本操作】 1* 从文件系统中加载数据创建RDD -> 本地文件系统 ->HDFS 2* 转换操作 [ 会创建新的RDD ,没有真正计算 ] >> filter() >> map() >> flatMap() >> groupByKey() >> reduceByKey() 3* 行动操作 []
阅读全文
摘要:spark shell 交互 启动:bin 目录下 ./spark-shell --master local [ ×× ] --jars ×××.jar 进入[ >> scala ]交互[ spark 由scala开发 ] 退出:quit / ctrl+D 编程环境 [ 使用spark API] 1
阅读全文
摘要:spark-shell 本地文件系统数据读写 [ file:// ] 读取 :sc.textFile (" ****") 写入:saveAsTextFile ("****") HDFS文件的读写 [ hdfs:// ] 读取 :sc.textFile (" ****") 写入:saveAsTextF
阅读全文
摘要:简单步骤: 前提:hadoop 环境搭建(我的是伪分布式) 1、官网下载spark 2、spark部署(单机模式): (1)解压 (2)移动文件到自定义目录下(同时修改文件名-原来的名字太长) (3)修改 !配置文件:spark-env.sh [ spark与hdfs可以数据交互 ] 3、检测spa
阅读全文

浙公网安备 33010602011771号