spark - 随笔分类 - 开水白菜

scala spark maven打包记录

摘要：4.0.0 com.first one dream 1.0 SNAPSHOT UTF 8 2.4.0 2.11 2.7.3 6.3.1 1.7.25 2.8.2 3.2.0 2.4.0 1.8 1.8 1.8 3.2 3.2.2 2.4.3 1.0 org.apache.hadoop hadoop 阅读全文

posted @ 2020-03-06 16:18 开水白菜阅读(499) 评论(0) 推荐(0)

spark on yarn UI界面详解

摘要：参考： 1. "spark on yarn图形化任务监控利器：History server帮你理解spark的任务执行过程" 2. "spark内存分配原理" 3. "yarn运行原理详解" 4. "task，executor，core等数目的关系" 5. "streaming优化记录" 阅读全文

posted @ 2018-01-03 10:18 开水白菜阅读(4148) 评论(0) 推荐(0)

Spark RDD理解-总结

摘要：1.spark是什么快速、通用、可扩展的分布式计算引擎。 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构，表示一个不可变、可分区、里面元素可以并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度阅读全文

posted @ 2017-12-28 15:00 开水白菜阅读(323) 评论(0) 推荐(0)

spark日志+hivesql

摘要：windows本地读取hive，需要在resource里面将集群中的hive site.xml下载下来。代码部分如下：阅读全文

posted @ 2017-12-22 14:15 开水白菜阅读(596) 评论(0) 推荐(0)

Spark原理小总结

摘要："Spark原理小总结" 阅读全文

posted @ 2017-12-21 09:30 开水白菜阅读(166) 评论(0) 推荐(0)

查看hdfs各目录分别占用多少空间

摘要："查看hdfs各目录分别占用多少空间" "HDFS常用命令" 阅读全文

posted @ 2017-12-21 09:22 开水白菜阅读(2823) 评论(0) 推荐(0)

SparkML之推荐算法ALS

摘要：参考: " SparkML之推荐算法（一）ALS" 有个比较详细的讲解,包含blocks使用。 "Spark ALS源码总结" 阅读全文

posted @ 2017-12-21 09:18 开水白菜阅读(1898) 评论(0) 推荐(0)

Windows下spark1.6.0本地环境搭建

摘要：由于spark是用scala编写的，且需要jdk的环境支撑，所以本地spark环境的搭建需要四个步骤：JDK的安装，scala的安装，hadoop的配置，spark的配置。一、jdk的安装与环境变量的配置。（参考：http://blog.csdn.net/u011513853/article/de 阅读全文

posted @ 2017-06-12 13:43 开水白菜阅读(596) 评论(0) 推荐(0)

free-dog

石以砥焉，化钝为利。

随笔分类 - spark

公告