随笔分类 -  spark

摘要:4.0.0 com.first one dream 1.0 SNAPSHOT UTF 8 2.4.0 2.11 2.7.3 6.3.1 1.7.25 2.8.2 3.2.0 2.4.0 1.8 1.8 1.8 3.2 3.2.2 2.4.3 1.0 org.apache.hadoop hadoop 阅读全文
posted @ 2020-03-06 16:18 开水白菜 阅读(499) 评论(0) 推荐(0)
摘要:参考: 1. "spark on yarn图形化任务监控利器:History server帮你理解spark的任务执行过程" 2. "spark内存分配原理" 3. "yarn运行原理详解" 4. "task,executor,core等数目的关系" 5. "streaming优化记录" 阅读全文
posted @ 2018-01-03 10:18 开水白菜 阅读(4148) 评论(0) 推荐(0)
摘要:1.spark是什么 快速、通用、可扩展的分布式计算引擎。 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构,表示一个不可变、可分区、里面元素可以并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度 阅读全文
posted @ 2017-12-28 15:00 开水白菜 阅读(323) 评论(0) 推荐(0)
摘要:windows本地读取hive,需要在resource里面将集群中的hive site.xml下载下来。 代码部分如下: 阅读全文
posted @ 2017-12-22 14:15 开水白菜 阅读(596) 评论(0) 推荐(0)
摘要:"Spark原理小总结" 阅读全文
posted @ 2017-12-21 09:30 开水白菜 阅读(166) 评论(0) 推荐(0)
摘要:"查看hdfs各目录分别占用多少空间" "HDFS常用命令" 阅读全文
posted @ 2017-12-21 09:22 开水白菜 阅读(2823) 评论(0) 推荐(0)
摘要:参考: " SparkML之推荐算法(一)ALS" 有个比较详细的讲解,包含blocks使用。 "Spark ALS源码总结" 阅读全文
posted @ 2017-12-21 09:18 开水白菜 阅读(1898) 评论(0) 推荐(0)
摘要:由于spark是用scala编写的,且需要jdk的环境支撑,所以本地spark环境的搭建需要四个步骤:JDK的安装,scala的安装,hadoop的配置,spark的配置。 一、jdk的安装与环境变量的配置。(参考:http://blog.csdn.net/u011513853/article/de 阅读全文
posted @ 2017-06-12 13:43 开水白菜 阅读(596) 评论(0) 推荐(0)