随笔分类 - spark
摘要:4.0.0 com.first one dream 1.0 SNAPSHOT UTF 8 2.4.0 2.11 2.7.3 6.3.1 1.7.25 2.8.2 3.2.0 2.4.0 1.8 1.8 1.8 3.2 3.2.2 2.4.3 1.0 org.apache.hadoop hadoop
阅读全文
摘要:参考: 1. "spark on yarn图形化任务监控利器:History server帮你理解spark的任务执行过程" 2. "spark内存分配原理" 3. "yarn运行原理详解" 4. "task,executor,core等数目的关系" 5. "streaming优化记录"
阅读全文
摘要:1.spark是什么 快速、通用、可扩展的分布式计算引擎。 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构,表示一个不可变、可分区、里面元素可以并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度
阅读全文
摘要:windows本地读取hive,需要在resource里面将集群中的hive site.xml下载下来。 代码部分如下:
阅读全文
摘要:"查看hdfs各目录分别占用多少空间" "HDFS常用命令"
阅读全文
摘要:参考: " SparkML之推荐算法(一)ALS" 有个比较详细的讲解,包含blocks使用。 "Spark ALS源码总结"
阅读全文
摘要:由于spark是用scala编写的,且需要jdk的环境支撑,所以本地spark环境的搭建需要四个步骤:JDK的安装,scala的安装,hadoop的配置,spark的配置。 一、jdk的安装与环境变量的配置。(参考:http://blog.csdn.net/u011513853/article/de
阅读全文

浙公网安备 33010602011771号