随笔分类 - spark
摘要:Spark本身是基于Hadoop生态圈而构建,特别是Spark可用通过Hadoop MapReduce所使用的InputFormat和OutputFormat接口访问数据。 分布式文件系统(比如NFS,HDFS,Amazon S3) 三种常见的数据源 1.文件格式与文件系统 2.Spark SQL中
阅读全文
posted @ 2018-03-20 20:36
blog_hfg
摘要:$\color{red}{RDD基础}$ RDD是一个不可变的分布式对象集合。RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以包含用户自定义的对象。 创建RDD方法: 1.读取外部数据集 2.分发对象集合 RDD支持两种类型的操作: 1.转化操作:由一个RDD生产一个新的R
阅读全文
posted @ 2018-03-19 20:07
blog_hfg
摘要:一套大数据解决方案通常包含多个重要组件,从存储、计算和网络等硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层。这中间,数据处理引擎起到了十分重要的作用。 硬件产业的不断发展使得内存计算成为了可能,Spark由此出现. MapReduce 在迭代计算和交互计算的任
阅读全文
posted @ 2018-03-17 20:59
blog_hfg

浙公网安备 33010602011771号