随笔档案「2018年11月28日」：Spark中直接操作HDFS ... - mxgboy

2018年11月28日

摘要： Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：通过Hadoop方式操作已经存在的文件目录通过spark自带的hadoopconf方式操作已经存在文件目录阅读全文

posted @ 2018-11-28 16:56 mxgboy 阅读(6832) 评论(0) 推荐(0)

SparkSQL和hive on Spark

摘要： SparkSQL简介 SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行阅读全文

posted @ 2018-11-28 16:25 mxgboy 阅读(1911) 评论(0) 推荐(0)

Hive和HBase

摘要： 1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2018-11-28 11:06 mxgboy 阅读(230) 评论(0) 推荐(0)

RDD和Dataframe相互转换

摘要：参考：https://www.cnblogs.com/starwater/p/6841807.html 在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性： 1、RDD、DataFrame、Dataset全都是sp 阅读全文

posted @ 2018-11-28 10:52 mxgboy 阅读(8026) 评论(0) 推荐(0)

mxgboy

公告