spark - 随笔分类 - blog_hfg

数据读取和保存

摘要：Spark本身是基于Hadoop生态圈而构建，特别是Spark可用通过Hadoop MapReduce所使用的InputFormat和OutputFormat接口访问数据。分布式文件系统(比如NFS,HDFS,Amazon S3) 三种常见的数据源 1.文件格式与文件系统 2.Spark SQL中阅读全文

posted @ 2018-03-20 20:36 blog_hfg

RDD

摘要：$\color{red}{RDD基础}$ RDD是一个不可变的分布式对象集合。RDD可以包含Python,Java，Scala中任意类型的对象，甚至可以包含用户自定义的对象。创建RDD方法： 1.读取外部数据集 2.分发对象集合 RDD支持两种类型的操作： 1.转化操作：由一个RDD生产一个新的R 阅读全文

posted @ 2018-03-19 20:07 blog_hfg

Learning Spark

摘要：一套大数据解决方案通常包含多个重要组件,从存储、计算和网络等硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层。这中间,数据处理引擎起到了十分重要的作用。硬件产业的不断发展使得内存计算成为了可能,Spark由此出现. MapReduce 在迭代计算和交互计算的任阅读全文

posted @ 2018-03-17 20:59 blog_hfg

blog_hfg

随笔分类 - spark

公告