摘要: 一、DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似。SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表。那么我们就可以写SQL,所以其实这儿我们是不能用 阅读全文
posted @ 2018-09-07 11:45 大葱拌豆腐 阅读(5601) 评论(0) 推荐(0)
摘要: 一、前述 1、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Sca 阅读全文
posted @ 2018-09-07 11:40 大葱拌豆腐 阅读(4903) 评论(0) 推荐(0)