Spark - 随笔分类 - toov5

spark总结5 RDD

摘要：创建RDD 有两种方式 1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据，只记录了一下元数据 2 从过scala集合或者数组以并行化的方式创建RDD collect 把结果收集起来放到 scala数组里面 reduce 汇聚方法传进去 count rdd有多少元素 to 阅读全文

posted @ 2017-09-16 16:59 toov5 阅读(164) 评论(0) 推荐(0)

spark总结4 算子问题总结

摘要：官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后会产生一个rdd spark 的算子分为两类一类 Transformation 转换一类 Action 动作 Transformation 延迟执行记录元数据信息当计算任务触发Action时候才会真正的开始计算阅读全文

posted @ 2017-09-16 11:31 toov5 阅读(197) 评论(0) 推荐(0)

spark总结3

摘要：cd 到hadoop中然后格式化进入到 bin下找到 hdfs 然后看看里面有哈参数： ./hdfs namenode -format 格式化然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本：创建个目录 h 阅读全文

posted @ 2017-09-16 11:01 toov5 阅读(159) 评论(0) 推荐(0)

Spark 总结2

摘要：网页访问时候没有打开注意防火墙！启动park shell bin下面的spark-shell 这样启动的是单机版的可以看到没有接入集群中：应该这么玩儿用park协议 spark：//192.168.94.132：7077 地址协议 ./spark-shell --mster spark 阅读全文

posted @ 2017-09-15 22:10 toov5 阅读(148) 评论(0) 推荐(0)

Spark总结1

摘要：安装jdk 下载spark安装包解压重点来了：配置 spark：进入 conf 》 spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 添加：在该配置文件中添加如下配置阅读全文

posted @ 2017-09-15 20:46 toov5 阅读(119) 评论(0) 推荐(0)

Spark及其生态系统简介总结

摘要：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算 Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。 Spark生态圈即BDAS 》 Spark具有很强的适应性，能够读阅读全文

posted @ 2017-09-11 21:12 toov5 阅读(4108) 评论(0) 推荐(0)

spark启动

摘要：注意在启动spark时候要指定参数要不就死启动的单机版的 /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \ --master spark://node1.itcast.cn:7077 \ --executor-memory 2g \ -- 阅读全文

posted @ 2017-08-13 17:25 toov5 阅读(276) 评论(0) 推荐(0)

toov5

随笔分类 - Spark

公告