摘要: Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据: 通过Hadoop方式操作已经存在的文件目录 通过spark自带的hadoopconf方式操作已经存在文件目录 阅读全文
posted @ 2018-11-28 16:56 mxgboy 阅读(6745) 评论(0) 推荐(0) 编辑
摘要: SparkSQL简介 SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行 阅读全文
posted @ 2018-11-28 16:25 mxgboy 阅读(1843) 评论(0) 推荐(0) 编辑
摘要: 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2018-11-28 11:06 mxgboy 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.cnblogs.com/starwater/p/6841807.html 在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是sp 阅读全文
posted @ 2018-11-28 10:52 mxgboy 阅读(7862) 评论(0) 推荐(0) 编辑