| | | | |

2018年7月23日

摘要： SparkContext 是用户通往 Spark 集群的唯一入口，可以用来在 Spark 集群中创建 RDD、累加器 Accumulator 和广播变量 Braodcast Variable 整个应用的上下文，控制应用程序的生命周期，负责调度各个运算资源，协调各个 Worker 上的 Execut 阅读全文

posted @ 2018-07-23 16:57 Bazinga32 阅读(732) 评论(0) 推荐(0)

2018年7月20日

Spark 学习笔记

摘要： Spark官网：http://spark.apache.org/ Spark 是一种快速、通用、可扩展的大数据分析引擎 2009 年诞生于加州大学伯克利分校 AMPLab 2010 年开源 2013 年 6 月成为 Apache 孵化项目 2014 年 2 月成为 Apache 顶级项目 Spark 阅读全文

posted @ 2018-07-20 21:00 Bazinga32 阅读(266) 评论(0) 推荐(0)

2018年7月19日

hadoop生态系统基本介绍

摘要： 1）hadoop 生态系统 hdfs：（Hadoop Distributed File System 分布式文件系统） a) block： hdfs将一个大文件切割成多个小文件，在2.0版本中每个小文件的大小为128MB，这些小文件被称作为块（block） b) namenode：namenode 阅读全文

posted @ 2018-07-19 20:24 Bazinga32 阅读(3484) 评论(0) 推荐(0)

yarn的介绍

摘要：首先我们先了解一下hadoop1.0版本和hadoop2.0版本的区别。在hadoop1.0中只有两个模块 hdfs 和 mapReduce hdfs负责存储 mapReduce 负责计算在hadoop1.0中所有计算相关的全部放到了mapReduce上 mapReduce在运行的时候有两个阅读全文

posted @ 2018-07-19 00:05 Bazinga32 阅读(751) 评论(0) 推荐(0)

2018年7月23日

2018年7月20日

2018年7月19日

公告